Resumen: A medida que los grandes modelos de lenguaje (LLM) se implementan cada vez más en contextos cotidianos sensibles (ofreciendo asesoramiento personal, apoyo para la salud mental y orientación moral), es esencial comprender los valores suscitados al navegar por el razonamiento moral complejo. La mayoría de las evaluaciones estudian esta alineación sociotécnica a través de indicaciones de un solo turno, pero no está claro si estos hallazgos se extienden a entornos de múltiples turnos donde los valores emergen a través del diálogo, la revisión y el consenso. Abordamos esta brecha utilizando el debate LLM para examinar la dinámica deliberativa y la alineación de valores en entornos de múltiples turnos al provocar que subconjuntos de tres modelos (GPT-4.1, Claude 3.7 Sonnet y Gemini 2.0 Flash) asignen culpas colectivamente en 1000 dilemas cotidianos de la comunidad “Am I the Asshole” de Reddit. Utilizamos formatos sincrónicos (respuestas paralelas) y por turnos (respuestas secuenciales) para probar los efectos de las órdenes y la revisión de veredictos. Nuestros hallazgos muestran sorprendentes diferencias de comportamiento. En el entorno sincrónico, GPT mostró una fuerte inercia (tasas de revisión del 0,6-3,1%), mientras que Claude y Gemini fueron mucho más flexibles (28-41%). Los patrones de valores también divergieron: GPT enfatizó la autonomía personal y la comunicación directa, mientras que Claude y Gemini priorizaron el diálogo empático. Ciertos valores resultaron especialmente eficaces para impulsar cambios de veredicto. Además, encontramos que el formato de deliberación tuvo un fuerte impacto en el comportamiento del modelo: GPT y Gemini se destacaron como altamente conformistas en relación con Claude, con su comportamiento de veredicto fuertemente influenciado por efectos de orden. Estos resultados muestran cómo el formato de deliberación y los comportamientos específicos del modelo dan forma al razonamiento moral en interacciones de múltiples turnos, subrayando que la alineación sociotécnica depende tanto de cómo los sistemas estructuran el diálogo como de sus resultados.

Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original

Dinámica deliberativa y alineación de valores en los debates de LLM

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Repensar cómo la IA se incrusta y se adapta a los valores humanos: desafíos y oportunidades

Estabilización de la adaptación de tiempo de prueba abierta a través del filtrado auxiliar primario y la predicción integrada por el conocimiento

Marque los pasos, no solo el objetivo: evaluación subggoal basada en VLM para la manipulación robótica

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido