Resumen:Si bien los métodos basados en conjuntos, como la votación por mayoría, pueden ayudar, demostramos que no son lo suficientemente buenos. Introducimos una estrategia óptima de veto de minorías que es resistente a los datos faltantes y mitiga este sesgo en gran medida. Para escenarios que requieren una precisión aún mayor, proponemos un marco novedoso basado en regresión que modela directamente el sesgo del validador utilizando un pequeño conjunto de datos reales anotados por humanos. En una desafiante tarea de retroalimentación de código en 366 programas Python de secundaria, nuestro enfoque de regresión reduce el error absoluto máximo a solo 1,2%, logrando una mejora del doble con respecto al conjunto de mejor rendimiento de 14 LLM de última generación.
Publicado originalmente en export.arxiv.org el 14 de octubre de 2025.
Ver fuente original