Resumen:El campo LLM ha pasado un año perfeccionando RL para tareas en las que las máquinas ya destacan, matemáticas, código y razonamiento determinista, mientras elude por completo el dominio que realmente define la inteligencia humana: la conversación subjetiva, emocionalmente fundamentada y sensible a la personalidad. Este espacio a menudo se ha considerado intrínsecamente subjetivo y difícil de formalizar, lo que lo hace parecer inadecuado para los ductos RL convencionales. Mostramos que no solo es posible y es un problema de RL transformador y solucionable. Proponemos el primer marco que infiere la personalidad del usuario sobre la marcha y optimiza el comportamiento del modelo hacia preferencias conversacionales personalizadas. Contrariamente a la creencia generalizada de que la RL colapsa en entornos no verificables, nuestro método produce mejoras consistentes, sólidas y dramáticas en la calidad de la interacción humana. También presentamos el primer conjunto dinámico de evaluación de inteligencia emocional para cuantificar estos beneficios. Nuestro modelo, que se presenta como Echo-N1, se comporta muy por encima de su versión base y supera al Doubao 1.5 Character propietario. Este trabajo establece una nueva frontera para RL: optimizar modelos para las dimensiones profundamente subjetivas y profundamente humanas de la conversación.
Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original
