Cuando la verificación duele: efectos asimétricos de la retroalimentación de múltiples agentes en la tutoría de prueba lógica

Resumen: Los modelos de lenguaje grande (LLM) se utilizan cada vez más para la tutoría automatizada, pero su confiabilidad en dominios simbólicos estructurados aún no está clara. Estudiamos la retroalimentación a nivel de paso para pruebas de lógica proposicional, que requieren un razonamiento simbólico preciso alineado con el estado de prueba actual del alumno. Presentamos un punto de referencia basado en gráficos de conocimiento de 516 estados de prueba únicos con anotaciones a nivel de paso y métricas de dificultad. A diferencia de las evaluaciones de tutoría anteriores que se basan en la autoevaluación del modelo o la corrección binaria, nuestro marco permite un análisis detallado de la calidad de la retroalimentación frente a rutas de solución verificadas. Evaluamos tres canales especializados en roles con diferentes accesos a la solución: Tutor (acceso parcial a la solución), Profesor (acceso de derivación completo) y Juez (verificación de los comentarios del Tutor). Nuestros resultados revelan una sorprendente asimetría: la verificación mejora los resultados cuando la retroalimentación ascendente es propensa a errores (<70% de precisión), pero degrada el rendimiento entre 4 y 6 puntos porcentuales debido a una sobreespecificación cuando la retroalimentación ya es confiable (>85%). Fundamentalmente, identificamos un techo de complejidad compartido; ningún modelo o canalización tiene éxito confiable en estados de prueba que excedan la complejidad 4-5. Estos hallazgos desafían la suposición de que agregar verificadores o un contexto más rico mejora universalmente la tutoría, motivando arquitecturas adaptativas y conscientes de las dificultades que dirigen los problemas según la complejidad estimada y la confiabilidad ascendente.

Publicado originalmente en export.arxiv.org el 30 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Adaptación focal global con separación de información para un diagnóstico de fallas de transferencia resistente al ruido

Las plantas de energía de fusión aún no existen, pero de todos modos están ganando dinero

La descarga: dentro del movimiento Vitalismo y por qué la “memoria” de la IA es un problema de privacidad

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido