 Resumen: A medida que los grandes modelos de lenguaje (LLM) se implementan cada vez más en contextos cotidianos sensibles (ofreciendo asesoramiento personal, apoyo para la salud mental y orientación moral), es esencial comprender los valores suscitados al navegar por el razonamiento moral complejo. La mayoría de las evaluaciones estudian esta alineación sociotécnica a través de indicaciones de un solo turno, pero no está claro si estos hallazgos se extienden a entornos de múltiples turnos donde los valores emergen a través del diálogo, la revisión y el consenso. Abordamos esta brecha utilizando el debate LLM para examinar la dinámica deliberativa y la alineación de valores en entornos de múltiples turnos al provocar que subconjuntos de tres modelos (GPT-4.1, Claude 3.7 Sonnet y Gemini 2.0 Flash) asignen culpas colectivamente en 1000 dilemas cotidianos de la comunidad “Am I the Asshole” de Reddit. Utilizamos formatos sincrónicos (respuestas paralelas) y por turnos (respuestas secuenciales) para probar los efectos de las órdenes y la revisión de veredictos. Nuestros hallazgos muestran sorprendentes diferencias de comportamiento. En el entorno sincrónico, GPT mostró una fuerte inercia (tasas de revisión del 0,6-3,1%), mientras que Claude y Gemini fueron mucho más flexibles (28-41%). Los patrones de valores también divergieron: GPT enfatizó la autonomía personal y la comunicación directa, mientras que Claude y Gemini priorizaron el diálogo empático. Ciertos valores resultaron especialmente eficaces para impulsar cambios de veredicto. Además, encontramos que el formato de deliberación tuvo un fuerte impacto en el comportamiento del modelo: GPT y Gemini se destacaron como altamente conformistas en relación con Claude, con su comportamiento de veredicto fuertemente influenciado por efectos de orden. Estos resultados muestran cómo el formato de deliberación y los comportamientos específicos del modelo dan forma al razonamiento moral en interacciones de múltiples turnos, subrayando que la alineación sociotécnica depende tanto de cómo los sistemas estructuran el diálogo como de sus resultados.
Resumen: A medida que los grandes modelos de lenguaje (LLM) se implementan cada vez más en contextos cotidianos sensibles (ofreciendo asesoramiento personal, apoyo para la salud mental y orientación moral), es esencial comprender los valores suscitados al navegar por el razonamiento moral complejo. La mayoría de las evaluaciones estudian esta alineación sociotécnica a través de indicaciones de un solo turno, pero no está claro si estos hallazgos se extienden a entornos de múltiples turnos donde los valores emergen a través del diálogo, la revisión y el consenso. Abordamos esta brecha utilizando el debate LLM para examinar la dinámica deliberativa y la alineación de valores en entornos de múltiples turnos al provocar que subconjuntos de tres modelos (GPT-4.1, Claude 3.7 Sonnet y Gemini 2.0 Flash) asignen culpas colectivamente en 1000 dilemas cotidianos de la comunidad “Am I the Asshole” de Reddit. Utilizamos formatos sincrónicos (respuestas paralelas) y por turnos (respuestas secuenciales) para probar los efectos de las órdenes y la revisión de veredictos. Nuestros hallazgos muestran sorprendentes diferencias de comportamiento. En el entorno sincrónico, GPT mostró una fuerte inercia (tasas de revisión del 0,6-3,1%), mientras que Claude y Gemini fueron mucho más flexibles (28-41%). Los patrones de valores también divergieron: GPT enfatizó la autonomía personal y la comunicación directa, mientras que Claude y Gemini priorizaron el diálogo empático. Ciertos valores resultaron especialmente eficaces para impulsar cambios de veredicto. Además, encontramos que el formato de deliberación tuvo un fuerte impacto en el comportamiento del modelo: GPT y Gemini se destacaron como altamente conformistas en relación con Claude, con su comportamiento de veredicto fuertemente influenciado por efectos de orden. Estos resultados muestran cómo el formato de deliberación y los comportamientos específicos del modelo dan forma al razonamiento moral en interacciones de múltiples turnos, subrayando que la alineación sociotécnica depende tanto de cómo los sistemas estructuran el diálogo como de sus resultados.
Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original

 
 
			 
							 
							 
							