Mejorar y evaluar a los agentes abiertos de investigación profunda

Resumen: Nos centramos aquí en los agentes de investigación profunda (DRAS), que son sistemas que pueden tomar una solicitud de lenguaje natural de un usuario, y luego buscar y utilizar de forma autónoma y utilizar contenido basado en Internet para abordar el mensaje. Los DRA recientes han demostrado capacidades impresionantes en los puntos de referencia públicos, sin embargo, la investigación reciente involucra en gran medida sistemas patentados de código cerrado. En el momento de este trabajo, solo encontramos un DRA de código abierto, denominado Investigación Open Deep (ODR). En este trabajo, adaptamos el desafiante punto de referencia de Browsecompompt para comparar ODR con los sistemas propietarios existentes. Proponemos Browsecomp-Small (BC-Small), que comprende un subconjunto de Browsecomps, como un punto de referencia DRA más computacional para los laboratorios académicos. Benchmark ODR y otros dos sistemas patentados en BC-Small: un sistema de antrópico y un sistema de Google. Encontramos que los tres sistemas alcanzan una precisión del 0% en el conjunto de pruebas de 60 preguntas. Introducimos tres mejoras estratégicas en ODR, lo que resulta en el modelo ODR+, que logra una tasa de éxito del 10% de última generación en BC-Small entre los sistemas de código abierto y de código abierto. Reportamos estudios de ablación que indiquen que nuestras tres mejoras contribuyeron al éxito de ODR+.

Publicado Originalme en export.arxiv.org El 14 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Codificación cultural en grandes modelos lingüísticos: la brecha de existencia en el descubrimiento de marcas mediado por IA

OpentRravel Alliance se une a la base de mapas de tobografías para la infraestructura de viaje conectada a la potencia de AI-AI.

Navegando por el MIT

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido