Resumen:Los seres humanos solucionamos problemas complejos a través del pensamiento crítico, donde el razonamiento y la evaluación se entrelazan para converger hacia soluciones correctas. Sin embargo, la mayoría de los modelos de lenguajes grandes (LLM) existentes desvinculan el razonamiento de la verificación: generan razonamiento sin una autoverificación explícita o dependen de verificadores externos para detectar errores post hoc. El primero carece de retroalimentación inmediata, mientras que el segundo aumenta la complejidad del sistema y dificulta el aprendizaje sincronizado. Motivados por el pensamiento crítico humano, proponemos Stepwise Think-Critique (STC), un marco unificado que entrelaza razonamiento y autocrítica en cada paso dentro de un solo modelo. STC se entrena con un objetivo de aprendizaje de refuerzo híbrido que combina recompensas de razonamiento y recompensas de coherencia de la crítica para optimizar conjuntamente la calidad del razonamiento y la autoevaluación. Los experimentos con puntos de referencia de razonamiento matemático muestran que STC demuestra fuertes capacidades de pensamiento crítico y produce rastros de razonamiento más interpretables, lo que representa un paso hacia los LLM con pensamiento crítico incorporado.
Publicado originalmente en export.arxiv.org el 18 de diciembre de 2025.
Ver fuente original
