Resumen: Los modelos de lenguajes grandes (LLM) han mostrado recientemente un sólido desempeño en las pruebas de Teoría de la Mente (ToM), lo que generó un debate sobre la naturaleza y el verdadero desempeño de las capacidades subyacentes. Al mismo tiempo, los LLM orientados al razonamiento formados mediante aprendizaje reforzado con recompensas verificables (RLVR) han logrado mejoras notables en una variedad de puntos de referencia. Este artículo examina el comportamiento de dichos modelos de razonamiento en tareas de ToM, utilizando adaptaciones novedosas de experimentos psicológicos de máquinas y resultados de puntos de referencia establecidos. Observamos que los modelos de razonamiento exhiben consistentemente una mayor solidez para provocar variaciones y perturbaciones en las tareas. Nuestro análisis indica que las ganancias observadas se atribuyen más plausiblemente a una mayor solidez para encontrar la solución correcta, que a formas fundamentalmente nuevas de razonamiento ToM. Discutimos las implicaciones de esta interpretación para evaluar el comportamiento sociocognitivo en LLM.
Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original
