Resumen: Los modelos de lenguaje grande (LLM) se utilizan cada vez más para la tutoría automatizada, pero su confiabilidad en dominios simbólicos estructurados aún no está clara. Estudiamos la retroalimentación a nivel de paso para pruebas de lógica proposicional, que requieren un razonamiento simbólico preciso alineado con el estado de prueba actual del alumno. Presentamos un punto de referencia basado en gráficos de conocimiento de 516 estados de prueba únicos con anotaciones a nivel de paso y métricas de dificultad. A diferencia de las evaluaciones de tutoría anteriores que se basan en la autoevaluación del modelo o la corrección binaria, nuestro marco permite un análisis detallado de la calidad de la retroalimentación frente a rutas de solución verificadas. Evaluamos tres canales especializados en roles con diferentes accesos a la solución: Tutor (acceso parcial a la solución), Profesor (acceso de derivación completo) y Juez (verificación de los comentarios del Tutor). Nuestros resultados revelan una sorprendente asimetría: la verificación mejora los resultados cuando la retroalimentación ascendente es propensa a errores (<70% de precisión), pero degrada el rendimiento entre 4 y 6 puntos porcentuales debido a una sobreespecificación cuando la retroalimentación ya es confiable (>85%). Fundamentalmente, identificamos un techo de complejidad compartido; ningún modelo o canalización tiene éxito confiable en estados de prueba que excedan la complejidad 4-5. Estos hallazgos desafían la suposición de que agregar verificadores o un contexto más rico mejora universalmente la tutoría, motivando arquitecturas adaptativas y conscientes de las dificultades que dirigen los problemas según la complejidad estimada y la confiabilidad ascendente.
Publicado originalmente en export.arxiv.org el 30 de marzo de 2026.
Ver fuente original
