Benchmarking Razonamiento espacio -temporal en LLMS y modelos de razonamiento: capacidades y desafíos

Resumen: El razonamiento espacio-temporal juega un papel clave en los sistemas cibernéticos (CPS). A pesar de los avances en modelos de idiomas grandes (LLM) y los grandes modelos de razonamiento (LRM), su capacidad para razonar sobre señales espacio -temporales complejas sigue siendo subexplorada. Este documento propone un punto de referencia de razonamiento espacio-temporal jerárquico, Stark, para evaluar sistemáticamente las LLM en tres niveles de complejidad de razonamiento: estimación de estado (por ejemplo, predecir las variables de campo, localizar y rastrear eventos en el espacio y el tiempo), el razonamiento espacial-temporal sobre los estados (eg., eg., las relaciones espatiales-spatiales-de contextualización del mundo), y el razonamiento de los conocimientos de conocimiento del mundo) y el conocimiento de los conocimientos de contextualidad y el domente de los conocimientos de contextualidad y que se contextan en el contexto de la influencia de los conocimientos de contextualidad. (por ejemplo, predicción de la intención, navegación con el punto de referencia). Curratamos 26 tareas espacio -temporales distintas con diversas modalidades de sensores, que comprenden 14,552 desafíos en los que los modelos responden directamente o por intérprete de código Python. Evaluación de 3 LRMS y 8 LLM, encontramos que los LLM logran un éxito limitado en las tareas que requieren razonamiento geométrico (por ejemplo, multilateración o triangulación), particularmente a medida que aumenta la complejidad. Sorprendentemente, los LRM muestran un rendimiento robusto en todas las tareas con varios niveles de dificultad, a menudo compitiendo o superando los métodos tradicionales basados en primeros principios. Nuestros resultados muestran que en las tareas de razonamiento que requieren conocimiento mundial, la brecha de rendimiento entre LLM y LRMS se estrecha, y algunos LLM incluso superan los LRM. Sin embargo, el modelo LRM O3 continúa alcanzando el rendimiento líder en todas las tareas evaluadas, un resultado atribuido principalmente al mayor tamaño de los modelos de razonamiento. Stark motiva las innovaciones futuras en las arquitecturas de modelos y los paradigmas de razonamiento para CPS inteligentes al proporcionar un marco estructurado para identificar limitaciones en el razonamiento espacio -temporal de LLM y LRM.

Publicado Originalme en rss.arxiv.org El 19 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Hacia el Asistente de Investigación de Inteligencia Artificial para el Aprendizaje con expertos

Mesas redondas: el impacto de Trump en la próxima generación de innovadores

Selección escalable de grupos de actividades guiadas hasta el punto de inflexión en programación genética de múltiples árboles para la programación dinámica de proyectos multimodo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido