AgentDrive: un conjunto de datos de referencia abierto para el razonamiento de IA agente con escenarios generados por LLM en sistemas autónomos

Resumen: El rápido avance de los grandes modelos de lenguaje (LLM) ha despertado un interés creciente en su integración en sistemas autónomos para la percepción, la planificación y la toma de decisiones basadas en el razonamiento. Sin embargo, evaluar y entrenar estos modelos de IA agente sigue siendo un desafío debido a la falta de puntos de referencia a gran escala, estructurados y críticos para la seguridad. Este documento presenta AgentDrive, un conjunto de datos de referencia abierto que contiene 300 000 escenarios de conducción generados por LLM y diseñados para entrenar, ajustar y evaluar agentes autónomos en diversas condiciones. AgentDrive formaliza un espacio de escenario factorizado en siete ejes ortogonales: tipo de escenario, comportamiento del conductor, entorno, trazado de la carretera, objetivo, dificultad y densidad del tráfico. Una canalización de solicitud a JSON impulsada por LLM genera especificaciones semánticamente ricas y listas para simulación que se validan frente a restricciones físicas y de esquema. Cada escenario se somete a implementaciones de simulación, cálculo de métricas de seguridad sustitutas y etiquetado de resultados basado en reglas. Para complementar la evaluación basada en simulación, presentamos AgentDrive-MCQ, un punto de referencia de opción múltiple de 100 000 preguntas que abarca cinco dimensiones de razonamiento: física, política, híbrido, escenario y razonamiento comparativo. Realizamos una evaluación a gran escala de cincuenta LLM líderes en AgentDrive-MCQ. Los resultados muestran que, si bien los modelos de frontera propietarios funcionan mejor en el razonamiento contextual y de políticas, los modelos abiertos avanzados están cerrando rápidamente la brecha en el razonamiento estructurado y basado en la física. Publicamos el conjunto de datos de AgentDrive, el punto de referencia AgentDrive-MCQ, el código de evaluación y los materiales relacionados en esta URL https

Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprender a depurar: árboles de conocimiento organizados por LLM para resolver fallas de aserción RTL

QuickMerge ++: Fusión de token rápido con Autorregressive Prior

Hacia el pensamiento conciso y adaptativo en grandes modelos de razonamiento: una encuesta

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido