Resumen: Los sistemas de tutoría inteligente han demostrado efectividad en la enseñanza de pruebas lógicas proposicionales formales, pero su dependencia de las explicaciones basadas en plantillas limita su capacidad para proporcionar comentarios personalizados de los estudiantes. Mientras que los modelos de idiomas grandes (LLM) ofrecen capacidades prometedoras para la generación de retroalimentación dinámica, corren el riesgo de producir alucinaciones o explicaciones pedagógicamente no sólidas. Evaluamos la precisión paso a paso de LLM en la construcción de pruebas de lógica simbólica de varios pasos, comparando seis técnicas de incorporación en cuatro LLM de vanguardia en 358 problemas lógicos proposicionales. Los resultados muestran que Deepseek-V3 logró un rendimiento superior con una precisión del 84.4% en la construcción de pruebas graduales y se destacó particularmente en reglas más simples. Además, utilizamos la LLM mejor de rendimiento para generar sugerencias explicativas para 1.050 estados únicos de resolución de problemas de estudiantes de una lógica y evaluarlos en 4 criterios con un alumno de LLM y calificaciones de expertos humanos en una muestra del 20%. Nuestro análisis encuentra que los sugerencias generadas por LLM fueron un 75% precisas y calificadas por los evaluadores humanos sobre consistencia y claridad, pero no funcionaban tan bien explicando por qué se proporcionó la pista o su contexto más amplio. Nuestros resultados demuestran que los LLM pueden usarse para aumentar los sistemas de tutoría con sugerencias de tutoría lógica, pero requiere modificaciones adicionales para garantizar la precisión y la idoneidad pedagógica.
Publicado Originalme en rss.arxiv.org El 8 de mayo de 2025.
Ver Fuente Original