Resumen: Grandes modelos de idiomas (LLM), un avance reciente en el aprendizaje profundo y la inteligencia de la máquina, han manifestado capacidades asombrosas, ahora consideradas entre las más prometedoras para la inteligencia general artificial. Con las capacidades humanas, LLMS se han utilizado para simular a los humanos y servir como asistentes de IA en muchas aplicaciones. Como resultado, ha surgido una gran preocupación sobre si y en qué circunstancias los LLM piensan y se comportan como agentes humanos reales. La racionalidad se encuentra entre los conceptos más importantes para evaluar el comportamiento humano, tanto en el pensamiento (es decir, la racionalidad teórica) como en la toma de medidas (es decir, la racionalidad práctica). En este trabajo, proponemos el primer punto de referencia para evaluar la racionalidad omnibus de LLM, que cubre una amplia gama de dominios y LLM. El punto de referencia incluye un kit de herramientas fácil de usar, resultados experimentales extensos y análisis que se ilumina donde los LLM convergen y divergen de la racionalidad humana idealizada. Creemos que el punto de referencia puede servir como una herramienta fundamental tanto para desarrolladores como para usuarios de LLM.
Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original
