El estimador de signos: alineación de LLM frente a la heterogeneidad de elección

Resumen: Los métodos tradicionales de alineación de LLM son vulnerables a la heterogeneidad en las preferencias humanas. Ajustar un modelo probabilístico ingenuo a datos de comparación por pares (por ejemplo, sobre pares de finalización rápida) produce una estimación inconsistente de la utilidad promedio de la población, una medida canónica del bienestar social. Proponemos un nuevo método, denominado estimador de signos, que proporciona un estimador simple, demostrablemente consistente y eficiente al reemplazar la entropía cruzada con pérdida de clasificación binaria en el paso de agregación. Esta simple modificación recupera una alineación ordinal consistente bajo suposiciones leves y logra los primeros límites de error polinómico de muestra finita en esta configuración. En simulaciones realistas de alineación de LLM utilizando gemelos digitales, el estimador de signos reduce sustancialmente la distorsión de preferencias en un panel de personas simuladas, reduciendo el error de estimación (angular) en casi un 35 % y disminuyendo el desacuerdo con las preferencias reales de la población del 12 % al 8 % en comparación con el RLHF estándar. Nuestro método también se compara favorablemente con las heurísticas de datos de panel que modelan explícitamente la heterogeneidad del usuario y requieren el seguimiento de datos de preferencias a nivel individual, todo ello manteniendo la simplicidad de implementación de los procesos de alineación de LLM existentes.

Publicado originalmente en export.arxiv.org el 28 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Verificación de consistencia en modelos de proceso basados ​​en ontología con interdependencias de parámetros

Infodía regional Valencia Convocatorias 2026-2027: Clúster 4 Industria, Clúster 5 Energía, Clean Industrial Deal y Misión de Ciudades

De recurso algorítmico individual a múltiple agente: minimizando la brecha de bienestar a través de la coincidencia bipartita capacitada

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Verificación de consistencia en modelos de proceso basados en ontología con interdependencias de parámetros