Resumen: Los métodos tradicionales de alineación de LLM son vulnerables a la heterogeneidad en las preferencias humanas. Ajustar un modelo probabilístico ingenuo a datos de comparación por pares (por ejemplo, sobre pares de finalización rápida) produce una estimación inconsistente de la utilidad promedio de la población, una medida canónica del bienestar social. Proponemos un nuevo método, denominado estimador de signos, que proporciona un estimador simple, demostrablemente consistente y eficiente al reemplazar la entropía cruzada con pérdida de clasificación binaria en el paso de agregación. Esta simple modificación recupera una alineación ordinal consistente bajo suposiciones leves y logra los primeros límites de error polinómico de muestra finita en esta configuración. En simulaciones realistas de alineación de LLM utilizando gemelos digitales, el estimador de signos reduce sustancialmente la distorsión de preferencias en un panel de personas simuladas, reduciendo el error de estimación (angular) en casi un 35 % y disminuyendo el desacuerdo con las preferencias reales de la población del 12 % al 8 % en comparación con el RLHF estándar. Nuestro método también se compara favorablemente con las heurísticas de datos de panel que modelan explícitamente la heterogeneidad del usuario y requieren el seguimiento de datos de preferencias a nivel individual, todo ello manteniendo la simplicidad de implementación de los procesos de alineación de LLM existentes.
Publicado originalmente en export.arxiv.org el 28 de octubre de 2025.
Ver fuente original
