Autocuestionamiento contrafactual para la optimización de políticas estables en modelos lingüísticos

Resumen:Trabajos recientes sobre la superación personal de modelos lingüísticos muestran que los modelos pueden refinar su propio razonamiento mediante la reflexión, la verificación, el debate o las recompensas autogeneradas. Sin embargo, la mayoría de los enfoques existentes se basan en críticas externas, modelos de recompensa aprendidos o muestreo conjunto, lo que aumenta la complejidad y la inestabilidad del entrenamiento. Proponemos el autocuestionamiento contrafactual, un marco en el que un modelo de lenguaje único genera y evalúa críticas contrafactuales de su propio razonamiento. El método produce un rastro de razonamiento inicial, formula preguntas específicas que cuestionan posibles puntos de falla y genera trayectorias de razonamiento alternativas que exponen suposiciones incorrectas o pasos no válidos. Estas trayectorias contrafactuales proporcionan retroalimentación relativa estructurada que puede usarse directamente para la optimización de políticas sin modelos auxiliares. Los experimentos con múltiples puntos de referencia de razonamiento matemático muestran que el autocuestionamiento contrafactual mejora la precisión y la estabilidad del entrenamiento, particularmente para modelos más pequeños, lo que permite una superación personal escalable utilizando únicamente la supervisión generada internamente.

Publicado originalmente en export.arxiv.org el 5 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Razonamiento de llamadas de herramientas entrelazadas para comprender la función de las proteínas

Control-R: hacia la escala de tiempo de prueba controlable

La descarga: el futuro de la eliminación de carbono y la medición del dolor mediante una aplicación

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido