Resumen: VerA opera en dos modos complementarios. VeRA-E (equivalente) reescribe problemas manteniendo intacta la lógica subyacente, lo que resulta útil para detectar la memorización frente al razonamiento genuino. VeRA-H (reforzado) aumenta sistemáticamente la complejidad sin dejar de ser verificable, lo que permite la creación y el etiquetado confiables de nuevas tareas difíciles en el límite de la inteligencia. Al evaluar 16 modelos de frontera con VeRA, encontramos: (i) VeRA-E mejora la calidad de la evaluación y revela patrones de contaminación. (ii) VeRA-H permite la generación sin intervención humana de tareas difíciles con etiquetas confiables. (iii) VeRA establece puntos de referencia verificados como paradigma general. VeRA reconceptualiza los puntos de referencia desde objetos estáticos utilizados hasta que se agotan, hasta especificaciones ejecutables que generan instancias nuevas y verificadas bajo demanda, mejorando la solidez y la rentabilidad para la evaluación.
Con VeRA, imaginamos que la evaluación en cualquier dominio verificable pueda escalar indefinidamente sin sacrificar la integridad de la etiqueta. Para estimular la investigación futura, hemos abierto todo el código y los conjuntos de datos.
Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original
