Resumen: Un trabajo reciente informa que los modelos de razonamiento grande (LRM) sufren un colapso en el rendimiento al resolver acertijos más allá de ciertos umbrales de perplejidad. En discursos posteriores, han surgido preguntas sobre si la naturaleza de la tarea confunde la evaluación del verdadero razonamiento. Una posible confusión es el requisito de que el modelo realice un seguimiento del espacio de estados por sí solo. Proporcionamos un modelo de lenguaje grande (LLM) con una interfaz de entorno para los problemas de la Torre de Hanoi, lo que le permite realizar un movimiento con una llamada a una herramienta, proporcionar una justificación escrita, observar el espacio de estado resultante y volver a prepararse para el siguiente movimiento. Observamos que el acceso a una interfaz de entorno no retrasa ni erradica el colapso del rendimiento. Además, el análisis de políticas parametrizado por LLM revela una divergencia creciente tanto de las políticas óptimas como de las políticas uniformemente aleatorias, lo que sugiere que el modelo exhibe un colapso similar al modo en cada nivel de complejidad, y que el desempeño depende de si el modo refleja la solución correcta para el problema. Sugerimos que un fenómeno similar podría ocurrir en los LRM.

Publicado originalmente en export.arxiv.org el 20 de octubre de 2025.
Ver fuente original

Límites del razonamiento emergente de modelos de lenguaje grandes en marcos agentes para juegos deterministas

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Hacia la IA guiada por el conocimiento para el diseño inverso en la fabricación: una perspectiva sobre el dominio, la física y la sinergia humana-AI

¿Quién ve qué? Secuencias estructuradas de acción pensativa para razonamiento epistémico en LLMS

Cuando los modelos piensan más que su seguridad: mitigar la auto-jailbreak en modelos de gran razonamiento con cadenas de seguridad

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido