Evaluar empíricamente la inteligencia de sentido común en modelos de lenguaje grande con juicios humanos a gran escala

Resumen: La inteligencia de sentido común en las máquinas a menudo se evalúa mediante puntos de referencia estáticos que comparan la producción de un modelo con las etiquetas correctas prescritas humanas. Una suposición importante, aunque implícita, de estas etiquetas es que capturan con precisión lo que cualquier humano pensaría, tratando efectivamente el sentido común humano como homogéneo. Sin embargo, el trabajo empírico reciente ha demostrado que los humanos varían enormemente en lo que consideran lo común; Por lo tanto, lo que parece evidente para un diseñador de referencia puede no ser así para otro. Aquí, proponemos un método novedoso para evaluar el sentido común en la inteligencia artificial (IA), específicamente en modelos de lenguaje grande (LLMS), que incorpora heterogeneidad observada empíricamente entre los humanos midiendo la correspondencia entre el juicio de un modelo y la de una población humana. Primero encontramos que, cuando se tratan como encuestados independientes, la mayoría de los LLM permanecen por debajo de la mediana humana en su competencia individual de sentido común. En segundo lugar, cuando se usan como simuladores de una población hipotética, los LLM se correlacionan con humanos reales solo modestamente en la medida en que están de acuerdo en el mismo conjunto de declaraciones. En ambos casos, los modelos más pequeños y de peso abierto son sorprendentemente más competitivos que los modelos fronterizos más grandes y patentados. Nuestro marco de evaluación, que vincula la inteligencia de sentido común a su base cultural, contribuye al creciente llamado a adaptar modelos de IA a las colectividades humanas que poseen diferentes acciones sociales de conocimiento.

Publicado Originalme en rss.arxiv.org El 15 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Análisis cualitativo de $ omega $-objetivos regulares en MDP robustos

La descarga: cazar un asteroide y desbloquear la mente humana

Evento ESIL financiado por EIC: proyectos de tecnología de financiación y nuevas empresas a nivel internacional: el papel de los ángeles de negocios y otros actores de innovación

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido