En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Benchmarking Razonamiento espacio -temporal en LLMS y modelos de razonamiento: capacidades y desafíos

Benchmarking Razonamiento espacio -temporal en LLMS y modelos de razonamiento: capacidades y desafíos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El razonamiento espacio-temporal juega un papel clave en los sistemas cibernéticos (CPS). A pesar de los avances en modelos de idiomas grandes (LLM) y los grandes modelos de razonamiento (LRM), su capacidad para razonar sobre señales espacio -temporales complejas sigue siendo subexplorada. Este documento propone un punto de referencia de razonamiento espacio-temporal jerárquico, Stark, para evaluar sistemáticamente las LLM en tres niveles de complejidad de razonamiento: estimación de estado (por ejemplo, predecir las variables de campo, localizar y rastrear eventos en el espacio y el tiempo), el razonamiento espacial-temporal sobre los estados (eg., eg., las relaciones espatiales-spatiales-de contextualización del mundo), y el razonamiento de los conocimientos de conocimiento del mundo) y el conocimiento de los conocimientos de contextualidad y el domente de los conocimientos de contextualidad y que se contextan en el contexto de la influencia de los conocimientos de contextualidad. (por ejemplo, predicción de la intención, navegación con el punto de referencia). Curratamos 26 tareas espacio -temporales distintas con diversas modalidades de sensores, que comprenden 14,552 desafíos en los que los modelos responden directamente o por intérprete de código Python. Evaluación de 3 LRMS y 8 LLM, encontramos que los LLM logran un éxito limitado en las tareas que requieren razonamiento geométrico (por ejemplo, multilateración o triangulación), particularmente a medida que aumenta la complejidad. Sorprendentemente, los LRM muestran un rendimiento robusto en todas las tareas con varios niveles de dificultad, a menudo compitiendo o superando los métodos tradicionales basados ​​en primeros principios. Nuestros resultados muestran que en las tareas de razonamiento que requieren conocimiento mundial, la brecha de rendimiento entre LLM y LRMS se estrecha, y algunos LLM incluso superan los LRM. Sin embargo, el modelo LRM O3 continúa alcanzando el rendimiento líder en todas las tareas evaluadas, un resultado atribuido principalmente al mayor tamaño de los modelos de razonamiento. Stark motiva las innovaciones futuras en las arquitecturas de modelos y los paradigmas de razonamiento para CPS inteligentes al proporcionar un marco estructurado para identificar limitaciones en el razonamiento espacio -temporal de LLM y LRM.

Publicado Originalme en rss.arxiv.org El 19 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web