Resumen: El rápido avance de los grandes modelos de lenguaje (LLM) ha despertado un interés creciente en su integración en sistemas autónomos para la percepción, la planificación y la toma de decisiones basadas en el razonamiento. Sin embargo, evaluar y entrenar estos modelos de IA agente sigue siendo un desafío debido a la falta de puntos de referencia a gran escala, estructurados y críticos para la seguridad. Este documento presenta AgentDrive, un conjunto de datos de referencia abierto que contiene 300 000 escenarios de conducción generados por LLM y diseñados para entrenar, ajustar y evaluar agentes autónomos en diversas condiciones. AgentDrive formaliza un espacio de escenario factorizado en siete ejes ortogonales: tipo de escenario, comportamiento del conductor, entorno, trazado de la carretera, objetivo, dificultad y densidad del tráfico. Una canalización de solicitud a JSON impulsada por LLM genera especificaciones semánticamente ricas y listas para simulación que se validan frente a restricciones físicas y de esquema. Cada escenario se somete a implementaciones de simulación, cálculo de métricas de seguridad sustitutas y etiquetado de resultados basado en reglas. Para complementar la evaluación basada en simulación, presentamos AgentDrive-MCQ, un punto de referencia de opción múltiple de 100 000 preguntas que abarca cinco dimensiones de razonamiento: física, política, híbrido, escenario y razonamiento comparativo. Realizamos una evaluación a gran escala de cincuenta LLM líderes en AgentDrive-MCQ. Los resultados muestran que, si bien los modelos de frontera propietarios funcionan mejor en el razonamiento contextual y de políticas, los modelos abiertos avanzados están cerrando rápidamente la brecha en el razonamiento estructurado y basado en la física. Publicamos el conjunto de datos de AgentDrive, el punto de referencia AgentDrive-MCQ, el código de evaluación y los materiales relacionados en esta URL https
Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original
