Contramoral: edición de moralejas en modelos lingüísticos

Resumen: Los avances recientes en la tecnología de modelos de lenguaje han mejorado significativamente la capacidad de editar información factual. Sin embargo, la modificación de los juicios morales, un aspecto crucial para alinear los modelos con los valores humanos, ha recibido menos atención. En este trabajo, presentamos CounterMoral, un conjunto de datos de referencia diseñado para evaluar qué tan bien las técnicas actuales de edición de modelos modifican los juicios morales en diversos marcos éticos. Aplicamos varias técnicas de edición a múltiples modelos de lenguaje y evaluamos su desempeño. Nuestros hallazgos contribuyen a la evaluación de modelos de lenguaje diseñados para ser éticos.

Publicado originalmente en export.arxiv.org el 30 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cómo es ser expulsado de EE. UU. por luchar contra el odio en línea

Diagnóstico del sesgo de recuperación bajo múltiples actualizaciones de conocimiento en contexto en modelos de lenguaje grandes

Hacia una auditoría de accesibilidad web escalable con MLLM como copilotos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido