Resumen:Trabajos recientes sobre la superación personal de modelos lingüísticos muestran que los modelos pueden refinar su propio razonamiento mediante la reflexión, la verificación, el debate o las recompensas autogeneradas. Sin embargo, la mayoría de los enfoques existentes se basan en críticas externas, modelos de recompensa aprendidos o muestreo conjunto, lo que aumenta la complejidad y la inestabilidad del entrenamiento. Proponemos el autocuestionamiento contrafactual, un marco en el que un modelo de lenguaje único genera y evalúa críticas contrafactuales de su propio razonamiento. El método produce un rastro de razonamiento inicial, formula preguntas específicas que cuestionan posibles puntos de falla y genera trayectorias de razonamiento alternativas que exponen suposiciones incorrectas o pasos no válidos. Estas trayectorias contrafactuales proporcionan retroalimentación relativa estructurada que puede usarse directamente para la optimización de políticas sin modelos auxiliares. Los experimentos con múltiples puntos de referencia de razonamiento matemático muestran que el autocuestionamiento contrafactual mejora la precisión y la estabilidad del entrenamiento, particularmente para modelos más pequeños, lo que permite una superación personal escalable utilizando únicamente la supervisión generada internamente.
Publicado originalmente en export.arxiv.org el 5 de enero de 2026.
Ver fuente original
