El Laboratorio Social: un marco psicométrico para la evaluación LLM de múltiples agentes

Resumen: A medida que la transición de los modelos de lenguaje grande (LLMS) de las herramientas estáticas a los agentes autónomos, los puntos de referencia de evaluación tradicionales que miden el rendimiento en las tareas aguas abajo se están volviendo insuficientes. Estos métodos no logran capturar la dinámica social y cognitiva emergente que surgen cuando los agentes se comunican, persuaden y colaboran en entornos interactivos. Para abordar esta brecha, presentamos un marco de evaluación novedoso que utiliza el debate de múltiples agentes como un “laboratorio social” controlado para descubrir y cuantificar estos comportamientos. En nuestro marco, los agentes basados en LLM, instanciados con personas e incentivos distintos, deliberados en una amplia gama de temas desafiantes bajo la supervisión de un moderador LLM. Nuestro análisis, habilitado por un nuevo conjunto de métricas psicométricas y semánticas, revela varios hallazgos clave. En cientos de debates, descubrimos una tendencia emergente poderosa y robusta de que los agentes buscan consenso, alcanzando consistentemente un alto acuerdo semántico ({ mu}> 0.88) incluso sin instrucciones explícitas y temas sensibles. Mostramos que las personas asignadas inducen perfiles psicométricos estables y medibles, particularmente en el esfuerzo cognitivo, y que la persona moderadora puede alterar significativamente los resultados del debate al estructurar el medio ambiente, un hallazgo clave para la alineación de IA externa. Este trabajo proporciona un plan para una nueva clase de protocolos de evaluación dinámicos y psicométricamente fundamentados diseñados para el entorno agente, que ofrece una metodología crucial para comprender y dar forma a los comportamientos sociales de la próxima generación de agentes de IA. Hemos lanzado el código y los resultados en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 2 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Hasta qué punto pueden los LLM emular el comportamiento humano?: Un análisis estratégico a través del juego de negociación de compra y venta

Mejora de la predicción enzimática con ecuaciones de reacciones químicas mediante incrustaciones de gráficos de conocimiento mejoradas con hipergrafos

Monitoreo en línea basado en gráficos de los estados de conductor de trenes a través de características faciales y esqueléticas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido