LieCraft: un marco de múltiples agentes para evaluar capacidades engañosas en modelos de lenguaje

Resumen: Los modelos de lenguajes grandes (LLM) exhiben impresionantes capacidades de propósito general, pero también introducen serios riesgos de seguridad, en particular el potencial de engaño a medida que los modelos adquieren una mayor agencia y la supervisión humana disminuye. En este trabajo, presentamos LieCraft: un marco de evaluación novedoso y una zona de pruebas para medir el engaño de LLM que aborda las limitaciones clave de las evaluaciones anteriores basadas en juegos. En esencia, LieCraft es un novedoso juego de rol oculto multijugador en el que los jugadores seleccionan una alineación ética y ejecutan estrategias a lo largo de un horizonte de tiempo prolongado para cumplir misiones. Los cooperadores trabajan juntos para resolver los desafíos del evento y exponer a los malos actores, mientras que los desertores evaden las sospechas mientras sabotean misiones en secreto. Para permitir la relevancia en el mundo real, desarrollamos 10 escenarios fundamentados, como el cuidado infantil, la asignación de recursos hospitalarios y la suscripción de préstamos, que recontextualizan los mecanismos subyacentes en dominios éticamente significativos y de alto riesgo. Garantizamos una jugabilidad equilibrada en LieCraft mediante un diseño cuidadoso de la mecánica del juego y estructuras de recompensa que incentivan decisiones estratégicas significativas y al mismo tiempo eliminan estrategias degeneradas. Más allá del marco en sí, informamos los resultados de 12 LLM de última generación en tres ejes de comportamiento: propensión a desertar, habilidad para engañar y precisión de la acusación. Nuestros hallazgos revelan que a pesar de las diferencias en competencia y alineación general, todos los modelos están dispuestos a actuar de manera poco ética, ocultar sus intenciones y mentir abiertamente para perseguir sus objetivos.

Publicado originalmente en export.arxiv.org el 9 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Múltiples sistemas de memoria para mejorar la memoria a largo plazo del agente

Piense claramente: mejorar el razonamiento a través de la poda de token redundante

Collab-Rec: Un marco de agente con sede en LLM para equilibrar las recomendaciones en turismo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido