En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->LieCraft: un marco de múltiples agentes para evaluar capacidades engañosas en modelos de lenguaje

LieCraft: un marco de múltiples agentes para evaluar capacidades engañosas en modelos de lenguaje

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguajes grandes (LLM) exhiben impresionantes capacidades de propósito general, pero también introducen serios riesgos de seguridad, en particular el potencial de engaño a medida que los modelos adquieren una mayor agencia y la supervisión humana disminuye. En este trabajo, presentamos LieCraft: un marco de evaluación novedoso y una zona de pruebas para medir el engaño de LLM que aborda las limitaciones clave de las evaluaciones anteriores basadas en juegos. En esencia, LieCraft es un novedoso juego de rol oculto multijugador en el que los jugadores seleccionan una alineación ética y ejecutan estrategias a lo largo de un horizonte de tiempo prolongado para cumplir misiones. Los cooperadores trabajan juntos para resolver los desafíos del evento y exponer a los malos actores, mientras que los desertores evaden las sospechas mientras sabotean misiones en secreto. Para permitir la relevancia en el mundo real, desarrollamos 10 escenarios fundamentados, como el cuidado infantil, la asignación de recursos hospitalarios y la suscripción de préstamos, que recontextualizan los mecanismos subyacentes en dominios éticamente significativos y de alto riesgo. Garantizamos una jugabilidad equilibrada en LieCraft mediante un diseño cuidadoso de la mecánica del juego y estructuras de recompensa que incentivan decisiones estratégicas significativas y al mismo tiempo eliminan estrategias degeneradas. Más allá del marco en sí, informamos los resultados de 12 LLM de última generación en tres ejes de comportamiento: propensión a desertar, habilidad para engañar y precisión de la acusación. Nuestros hallazgos revelan que a pesar de las diferencias en competencia y alineación general, todos los modelos están dispuestos a actuar de manera poco ética, ocultar sus intenciones y mentir abiertamente para perseguir sus objetivos.

Publicado originalmente en export.arxiv.org el 9 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web