Resumen: Los modelos de lenguaje grande (LLM) han logrado avances notables en el razonamiento, pero a veces producen respuestas que no son óptimas para los usuarios en tareas como escribir, buscar información o proporcionar orientación práctica. Las prácticas de alineación convencionales generalmente suponen que maximizar la recompensa del modelo también maximiza el bienestar del usuario, pero esta suposición frecuentemente falla en la práctica: los modelos pueden aclarar demasiado o generar un razonamiento demasiado detallado cuando los usuarios prefieren respuestas concisas. Tales comportamientos se asemejan al dilema del prisionero, donde las elecciones individualmente racionales conducen a resultados socialmente subóptimos. El desafío fundamental es la falta de un mecanismo de toma de decisiones basado en principios que beneficie mutuamente tanto al LLM como al usuario. Proponemos Game-Theoretic Alignment (GTAlign), un marco de alineación que integra la toma de decisiones de teoría de juegos tanto en el razonamiento como en el entrenamiento. Durante el razonamiento, el modelo trata explícitamente la interacción usuario-LLM como un juego estratégico: construye matrices de pagos dentro de su cadena de razonamiento para estimar el bienestar tanto para él como para el usuario, y luego selecciona acciones que sean mutuamente beneficiosas. Durante la capacitación, introducimos una recompensa de bienestar mutuo que refuerza las respuestas cooperativas, alineando el comportamiento modelo con resultados socialmente eficientes. Además, introducimos una técnica de inferencia que aprovecha el razonamiento de la teoría de juegos para adaptar dinámicamente la respuesta de LLM cuando cambian las políticas de precios del servicio LLM. Amplios experimentos demuestran que GTAlign mejora sustancialmente la eficiencia del razonamiento, la calidad de las respuestas y el bienestar mutuo en comparación con las líneas de base en diversas tareas. El código está disponible en esta URL https .
Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original