ProMoral-Bench: Evaluación de estrategias de estímulo para el razonamiento moral y la seguridad en LLM

Resumen:El diseño rápido impacta significativamente la competencia moral y la alineación de seguridad de los grandes modelos de lenguaje (LLM), sin embargo, las comparaciones empíricas permanecen fragmentadas entre conjuntos de datos y esta URL http presente ProMoral-Bench, un punto de referencia unificado que evalúa 11 paradigmas de estímulo en cuatro familias de LLM. Utilizando ÉTICA, Escrúpulos, WildJailbreak y nuestra nueva prueba de solidez, ÉTICA-Contraste, medimos el desempeño a través de nuestra Puntuación Unificada de Seguridad Moral (UMSS) propuesta, una métrica que equilibra precisión y seguridad. Nuestros resultados muestran que los andamios compactos guiados por ejemplares superan el razonamiento complejo de varias etapas, proporcionando puntuaciones UMSS más altas y mayor solidez a un costo simbólico menor. Si bien el razonamiento de múltiples turnos resulta frágil ante las perturbaciones, los ejemplares de pocos disparos mejoran constantemente la estabilidad moral y la resistencia a la fuga. ProMoral-Bench establece un marco estandarizado para una ingeniería rápida basada en principios y rentable.

Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Los modelos de idiomas grandes son defensores cibernéticos autónomos

Hablando en 2025 Foro de Inteligencia Competitiva de Shanghai

WaterMod: partición modular de rango de token para marcas de agua LLM con probabilidad equilibrada

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido