En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Evaluar empíricamente la inteligencia de sentido común en modelos de lenguaje grande con juicios humanos a gran escala

Evaluar empíricamente la inteligencia de sentido común en modelos de lenguaje grande con juicios humanos a gran escala

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La inteligencia de sentido común en las máquinas a menudo se evalúa mediante puntos de referencia estáticos que comparan la producción de un modelo con las etiquetas correctas prescritas humanas. Una suposición importante, aunque implícita, de estas etiquetas es que capturan con precisión lo que cualquier humano pensaría, tratando efectivamente el sentido común humano como homogéneo. Sin embargo, el trabajo empírico reciente ha demostrado que los humanos varían enormemente en lo que consideran lo común; Por lo tanto, lo que parece evidente para un diseñador de referencia puede no ser así para otro. Aquí, proponemos un método novedoso para evaluar el sentido común en la inteligencia artificial (IA), específicamente en modelos de lenguaje grande (LLMS), que incorpora heterogeneidad observada empíricamente entre los humanos midiendo la correspondencia entre el juicio de un modelo y la de una población humana. Primero encontramos que, cuando se tratan como encuestados independientes, la mayoría de los LLM permanecen por debajo de la mediana humana en su competencia individual de sentido común. En segundo lugar, cuando se usan como simuladores de una población hipotética, los LLM se correlacionan con humanos reales solo modestamente en la medida en que están de acuerdo en el mismo conjunto de declaraciones. En ambos casos, los modelos más pequeños y de peso abierto son sorprendentemente más competitivos que los modelos fronterizos más grandes y patentados. Nuestro marco de evaluación, que vincula la inteligencia de sentido común a su base cultural, contribuye al creciente llamado a adaptar modelos de IA a las colectividades humanas que poseen diferentes acciones sociales de conocimiento.

Publicado Originalme en rss.arxiv.org El 15 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web