Check de racionalidad! Benchmarking la racionalidad de los modelos de idiomas grandes

Resumen: Grandes modelos de idiomas (LLM), un avance reciente en el aprendizaje profundo y la inteligencia de la máquina, han manifestado capacidades asombrosas, ahora consideradas entre las más prometedoras para la inteligencia general artificial. Con las capacidades humanas, LLMS se han utilizado para simular a los humanos y servir como asistentes de IA en muchas aplicaciones. Como resultado, ha surgido una gran preocupación sobre si y en qué circunstancias los LLM piensan y se comportan como agentes humanos reales. La racionalidad se encuentra entre los conceptos más importantes para evaluar el comportamiento humano, tanto en el pensamiento (es decir, la racionalidad teórica) como en la toma de medidas (es decir, la racionalidad práctica). En este trabajo, proponemos el primer punto de referencia para evaluar la racionalidad omnibus de LLM, que cubre una amplia gama de dominios y LLM. El punto de referencia incluye un kit de herramientas fácil de usar, resultados experimentales extensos y análisis que se ilumina donde los LLM convergen y divergen de la racionalidad humana idealizada. Creemos que el punto de referencia puede servir como una herramienta fundamental tanto para desarrolladores como para usuarios de LLM.

Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Jeff Tao: Ayer, TdenGine lanzó oficialmente TDengine IDMP, una plataforma de gestión de datos industriales nativos de IA.

Sesión Informata Horizonte Europa Clúster 4: Digital E Industria

Fable: un nuevo punto de referencia de análisis de flujo de datos sobre texto de procedimiento para evaluación de modelos de lenguaje grande

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido