VeRA: aumento de datos de razonamiento verificado a escala

Resumen: VerA opera en dos modos complementarios. VeRA-E (equivalente) reescribe problemas manteniendo intacta la lógica subyacente, lo que resulta útil para detectar la memorización frente al razonamiento genuino. VeRA-H (reforzado) aumenta sistemáticamente la complejidad sin dejar de ser verificable, lo que permite la creación y el etiquetado confiables de nuevas tareas difíciles en el límite de la inteligencia. Al evaluar 16 modelos de frontera con VeRA, encontramos: (i) VeRA-E mejora la calidad de la evaluación y revela patrones de contaminación. (ii) VeRA-H permite la generación sin intervención humana de tareas difíciles con etiquetas confiables. (iii) VeRA establece puntos de referencia verificados como paradigma general. VeRA reconceptualiza los puntos de referencia desde objetos estáticos utilizados hasta que se agotan, hasta especificaciones ejecutables que generan instancias nuevas y verificadas bajo demanda, mejorando la solidez y la rentabilidad para la evaluación.
Con VeRA, imaginamos que la evaluación en cualquier dominio verificable pueda escalar indefinidamente sin sacrificar la integridad de la etiqueta. Para estimular la investigación futura, hemos abierto todo el código y los conjuntos de datos.

Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Agentes de cambio: agentes de LLM de autoevolución para la planificación estratégica

Banco de flujo: hacia la generación conversacional de flujos de trabajo empresariales

Cannelflow-Tools: una tubería de creación de conjunto de datos estandarizada para flujos de canal obstruidos 3D

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido