Resumen:La postformación basada en preferencias se ha convertido en un paradigma central para alinear los modelos lingüísticos. Una estrategia común de recopilación de datos es generar un pequeño conjunto de completaciones para cada mensaje y etiquetar los pares de comparación resultantes. Sin embargo, las etiquetas de preferencia humana suelen ser mucho más costosas que generar completaciones adicionales, lo que sugiere un uso diferente del mismo presupuesto de etiquetado: generar un conjunto más grande de completaciones, pero etiquetar solo los pares de comparación más informativos. Este artículo estudia qué pares deberían compararse en el post-entrenamiento basado en preferencias. Formulamos la curación comparativa como un problema de diseño de muestreo y evaluamos los diseños según la calidad de la política final bajo el objetivo posterior a la capacitación basado en preferencias. Creamos una instancia de este marco para la optimización de preferencias directas (DPO), analizando cómo la elección de pares etiquetados se propaga a través del entrenamiento de DPO hasta el desempeño de las políticas posteriores. Nuestros principales resultados proporcionan límites superior e inferior coincidentes en la brecha de optimización posterior a la capacitación de la política capacitada por DPO. Los límites muestran que la selección de comparación afecta el desempeño posterior a través de una única matriz de información dependiente del diseño, que vincula la asignación de etiquetas con el error de estimación de parámetros y la subóptima política. Esto produce un criterio de optimización explícito para la curación de comparaciones presupuestadas y motiva diseños de muestreo prácticos para seleccionar pares informativos de grandes grupos de finalización generados. Los experimentos en entornos sintéticos y puntos de referencia posteriores al entrenamiento de modelos de lenguaje muestran que los diseños propuestos mejoran consistentemente la eficiencia de la muestra con respecto a las heurísticas de selección y comparación comunes.
Publicado originalmente en export.arxiv.org el 18 de junio de 2026.
Ver fuente original
