En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ProMoral-Bench: Evaluación de estrategias de estímulo para el razonamiento moral y la seguridad en LLM

ProMoral-Bench: Evaluación de estrategias de estímulo para el razonamiento moral y la seguridad en LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:El diseño rápido impacta significativamente la competencia moral y la alineación de seguridad de los grandes modelos de lenguaje (LLM), sin embargo, las comparaciones empíricas permanecen fragmentadas entre conjuntos de datos y esta URL http presente ProMoral-Bench, un punto de referencia unificado que evalúa 11 paradigmas de estímulo en cuatro familias de LLM. Utilizando ÉTICA, Escrúpulos, WildJailbreak y nuestra nueva prueba de solidez, ÉTICA-Contraste, medimos el desempeño a través de nuestra Puntuación Unificada de Seguridad Moral (UMSS) propuesta, una métrica que equilibra precisión y seguridad. Nuestros resultados muestran que los andamios compactos guiados por ejemplares superan el razonamiento complejo de varias etapas, proporcionando puntuaciones UMSS más altas y mayor solidez a un costo simbólico menor. Si bien el razonamiento de múltiples turnos resulta frágil ante las perturbaciones, los ejemplares de pocos disparos mejoran constantemente la estabilidad moral y la resistencia a la fuga. ProMoral-Bench establece un marco estandarizado para una ingeniería rápida basada en principios y rentable.

Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web