No haga que el LLM lea el gráfico: haga que el gráfico piense

Resumen: Investigamos si los gráficos de creencias explícitas mejoran el rendimiento del LLM en el razonamiento cooperativo de múltiples agentes. A través de más de 3000 ensayos controlados en cuatro familias de LLM en el juego de cartas cooperativo Hanabi, establecemos cuatro hallazgos. En primer lugar, la arquitectura de integración determina si los gráficos de creencias proporcionan valor: como contexto rápido, los gráficos son decorativos para los modelos fuertes y beneficiosos sólo para los modelos débiles en la Teoría de la Mente de segundo orden (80% frente a 10%, p<0,0001, OR=36,0); cuando los gráficos controlan la selección de acciones a través de listas cortas clasificadas, se vuelven estructuralmente esenciales incluso para modelos sólidos (100% frente a 20% en ToM de segundo orden, p<0,001). En segundo lugar, identificamos "Planner Defiance", una falla específica de la familia de modelos en la que los LLM anulan las recomendaciones correctas del planificador con competencia parcial (90 % de anulación, replicado N = 20); Los modelos Gemini muestran un desafío casi nulo, mientras que Llama 70B muestra un 90%, y los modelos distinguen el contexto fáctico (aplazado) de las recomendaciones de asesoramiento (anuladas). En tercer lugar, la evidencia del juego completo confirma que las convenciones entre agentes (+128 % con respecto al valor inicial, p = 0,003) superan a todas las intervenciones de un solo agente, y que los componentes individuales del gráfico de creencias deben combinarse para producir ganancias. En cuarto lugar, el análisis de escala preliminar (N=10/celda, exploratorio) sugiere que la profundidad del gráfico tiene rendimientos decrecientes: los gráficos poco profundos proporcionan la mejor relación costo-beneficio, mientras que los gráficos de ToM más profundos parecen perjudiciales para un mayor número de jugadores (-1,5 puntos con 5 jugadores, p=0,029).

Publicado originalmente en export.arxiv.org el 27 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Reserve la fecha: Día de información del Consejo Europeo de Innovación (EIC) en Copenhague, Dinamarca

Objetivos instrumentales en sistemas avanzados de IA: ¿Características que deben gestionarse y no fallos que deben eliminarse?

La descarga: los misterios que rodean a los medicamentos para bajar de peso y los efectos económicos de la IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido