Resumen:Garantizar que los modelos de lenguajes grandes (LLM) se alineen con los valores humanos diversos y en evolución en diferentes regiones y culturas sigue siendo un desafío crítico en la ética de la IA. Los enfoques actuales de alineación a menudo producen una conformidad superficial en lugar de una comprensión ética genuina, y no abordan la naturaleza compleja y dependiente del contexto de los valores humanos. En este artículo, proponemos un paradigma novedoso de razonamiento ético para LLM inspirado en modelos éticos de toma de decisiones bien establecidos, con el objetivo de mejorar la alineación de diversos valores humanos a través del razonamiento ético deliberativo. Nuestro marco consta de un proceso estructurado de cinco pasos, que incluye la recopilación de hechos contextuales, la identificación de normas sociales jerárquicas, la generación de opciones, el análisis del impacto ético desde múltiples lentes y la reflexión. Este enfoque basado en la teoría guía a los LLM a través de un proceso de razonamiento interpretable que mejora su capacidad para comprender las especificidades regionales y realizar análisis éticos matizados, que pueden implementarse con ingeniería rápida o métodos de ajuste supervisados. Realizamos evaluaciones en el punto de referencia SafeWorld que está especialmente diseñado para la alineación de valores regionales. Los resultados experimentales demuestran que nuestro marco mejora significativamente la alineación del LLM con diversos valores humanos en comparación con los métodos básicos, lo que permite una identificación más precisa de las normas sociales y un razonamiento más apropiado culturalmente. Nuestro trabajo proporciona un camino concreto hacia el desarrollo de LLM que se alineen más eficazmente con los valores multifacéticos de las sociedades globales a través de la investigación interdisciplinaria.
Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original
