Resumen: Los marcos actuales para la generación de declaraciones de consenso con grandes modelos de lenguaje carecen de la estructura inherente necesaria para proporcionar garantías demostrables de equidad al agregar diversas opiniones de forma libre. Modelamos la tarea como un proceso de decisión de Markov (MDP) de nivel simbólico y multiobjetivo, donde cada objetivo corresponde a la preferencia de un agente. Las recompensas a nivel de token para cada agente se derivan de su política (por ejemplo, un modelo de lenguaje personalizado). Este enfoque utiliza el hallazgo de que tales políticas definen implícitamente funciones Q óptimas, proporcionando una forma basada en principios de cuantificar las recompensas en cada paso generacional sin una función de valor (Rafailov et al., 2024). Esta formulación del MDP crea una estructura formal susceptible de análisis utilizando principios de la teoría de la elección social. Proponemos dos enfoques basados en la teoría de la elección social. En primer lugar, proponemos una política de generación estocástica que se garantizará en el núcleo ex-ante, extendiendo los conceptos básicos de estabilidad desde la teoría de la votación hasta la generación de textos. Esta política se deriva de una distribución subyacente sobre declaraciones completas que maximiza la equidad proporcional (Nash Welfare). En segundo lugar, para generar una declaración única, apuntamos a la maximización del bienestar igualitario utilizando algoritmos de búsqueda dentro del marco del MDP. Empíricamente, los experimentos que utilizan modelos de lenguaje para instanciar políticas de agentes muestran que la búsqueda guiada por el objetivo igualitario genera declaraciones de consenso con una mejor alineación de agentes en el peor de los casos en comparación con los métodos de referencia, incluida la Máquina Habermas (Tessler et al., 2024).
Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original
