Resumen: Los avances recientes en la tecnología de modelos de lenguaje han mejorado significativamente la capacidad de editar información factual. Sin embargo, la modificación de los juicios morales, un aspecto crucial para alinear los modelos con los valores humanos, ha recibido menos atención. En este trabajo, presentamos CounterMoral, un conjunto de datos de referencia diseñado para evaluar qué tan bien las técnicas actuales de edición de modelos modifican los juicios morales en diversos marcos éticos. Aplicamos varias técnicas de edición a múltiples modelos de lenguaje y evaluamos su desempeño. Nuestros hallazgos contribuyen a la evaluación de modelos de lenguaje diseñados para ser éticos.
Publicado originalmente en export.arxiv.org el 30 de marzo de 2026.
Ver fuente original
