En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Crisis-Bench: Evaluación comparativa de la ambigüedad estratégica y la gestión de la reputación en modelos de lenguaje grandes

Crisis-Bench: Evaluación comparativa de la ambigüedad estratégica y la gestión de la reputación en modelos de lenguaje grandes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La alineación de seguridad estándar optimiza los modelos de lenguaje grande (LLM) para lograr utilidad y honestidad universales, inculcando efectivamente una moralidad rígida de “Boy Scout”. Si bien es sólido para los asistentes de propósito general, este marco ético único impone un “impuesto de transparencia” en dominios profesionales que requieren ambigüedad estratégica y retención de información, como las relaciones públicas, la negociación y la gestión de crisis. Para medir esta brecha entre la seguridad general y la utilidad profesional, presentamos Crisis-Bench, un proceso de decisión de Markov parcialmente observable (POMDP) ​​de múltiples agentes que evalúa los LLM en crisis corporativas de alto riesgo. Crisis-Bench, que abarca 80 historias diversas en 8 industrias, asigna a un agente de Relaciones Públicas (PR) con experiencia en LLM la tarea de navegar por una simulación dinámica de crisis corporativa de 7 días mientras administra estados narrativos públicos y privados estrictamente separados para imponer una rigurosa asimetría de información. A diferencia de los puntos de referencia tradicionales que se basan en verdades estáticas, presentamos el Adjudicator-Market Loop: una novedosa métrica de evaluación en la que el sentimiento del público se juzga y se traduce en un precio de acciones simulado, creando una estructura de incentivos económicos realista. Nuestros resultados exponen una dicotomía crítica: mientras algunos modelos capitulan ante preocupaciones éticas, otros demuestran la capacidad de una retención estratégica legítima y maquiavélica para estabilizar el precio de las acciones simuladas. Crisis-Bench proporciona el primer marco cuantitativo para evaluar las capacidades de “Gestión de la reputación”, abogando por un cambio del absolutismo moral rígido a una alineación profesional consciente del contexto.

Publicado originalmente en export.arxiv.org el 11 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web