Resumen: La mafia es un juego de deducción social donde la mafia informada compite contra la gente de la ciudad no informada. Su asimetría de información y dependencia del razonamiento de la teoría de la mente reflejan escenarios de agentes múltiples del mundo real, lo que lo convierte en una prueba útil para evaluar la inteligencia social de los modelos de idiomas grandes (LLM). Para apoyar un estudio sistemático, presentamos Mini-Mafia: una variante simplificada de cuatro jugadores con un mafioso, un detective y dos aldeanos. Establecimos el mafioso para matar a un aldeano y al detective para investigar el mafioso durante la noche, reduciendo el juego a una fase de discusión y votación de un solo día. Esta configuración aísla tres capacidades interactivas a través de condiciones de victorias específicas de roles: el mafioso debe engañar, los aldeanos deben detectar el engaño y el detective debe divulgar de manera efectiva la información. Para medir estas habilidades, tenemos LLM que juegan entre sí, creando el punto de referencia Mini-Mafia: un marco de dos etapas que primero estima las tasas de ganar dentro de las configuraciones de oponentes fijos, luego agrega el rendimiento de ellos a través de ellas utilizando la puntuación estandarizada. Construido completamente a partir de interacciones modelo sin datos externos, el punto de referencia evoluciona a medida que se introducen nuevos modelos, y cada uno sirve como un nuevo oponente y como objeto de evaluación. Nuestros experimentos revelan resultados contraintuitivos, incluidos casos en los que los modelos más pequeños superan a los más grandes. Más allá de la evaluación comparativa, Mini-Mafia permite un estudio cuantitativo de dinámicas emergentes de múltiples agentes, como el sesgo de nombre y la ventaja de último hablante. También contribuye a la seguridad de la inteligencia artificial al generar datos de capacitación para detectores de engaño y rastrear las capacidades de engaño de los modelos contra las líneas de base humana.
Publicado Originalme en export.arxiv.org El 29 de septiembre de 2025.
Ver Fuente Original
