Pensamiento-crítica gradual: un marco unificado para un razonamiento de LLM sólido e interpretable

Resumen:Los seres humanos solucionamos problemas complejos a través del pensamiento crítico, donde el razonamiento y la evaluación se entrelazan para converger hacia soluciones correctas. Sin embargo, la mayoría de los modelos de lenguajes grandes (LLM) existentes desvinculan el razonamiento de la verificación: generan razonamiento sin una autoverificación explícita o dependen de verificadores externos para detectar errores post hoc. El primero carece de retroalimentación inmediata, mientras que el segundo aumenta la complejidad del sistema y dificulta el aprendizaje sincronizado. Motivados por el pensamiento crítico humano, proponemos Stepwise Think-Critique (STC), un marco unificado que entrelaza razonamiento y autocrítica en cada paso dentro de un solo modelo. STC se entrena con un objetivo de aprendizaje de refuerzo híbrido que combina recompensas de razonamiento y recompensas de coherencia de la crítica para optimizar conjuntamente la calidad del razonamiento y la autoevaluación. Los experimentos con puntos de referencia de razonamiento matemático muestran que STC demuestra fuertes capacidades de pensamiento crítico y produce rastros de razonamiento más interpretables, lo que representa un paso hacia los LLM con pensamiento crítico incorporado.

Publicado originalmente en export.arxiv.org el 18 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Por qué los chatbots de IA están de acuerdo contigo incluso cuando te equivocas

AI explicable para la prevención y control de infecciones: modelado de la adquisición de CPE y los resultados del paciente en un hospital irlandés con transformadores

La descarga: los nuevos planes de inteligencia artificial del Pentágono y los reactores nucleares de próxima generación

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido