Resumen:El rápido desarrollo de la IA generativa está trayendo cambios innovadores a la educación y la evaluación. A medida que aumenta la prevalencia de estudiantes que utilizan la IA para las tareas, aumentan las preocupaciones sobre la integridad académica y la validez de las evaluaciones. Este estudio utiliza la sección Ciencias de la Tierra I de la Prueba de Habilidad Académica Universitaria Coreana (CSAT) de 2025 para analizar en profundidad las capacidades de razonamiento científico multimodal y las limitaciones cognitivas de los modelos de lenguaje grande (LLM) de última generación, incluidos GPT-4o, Gemini 2.5 Flash y Gemini 2.5 Pro. Se diseñaron tres condiciones experimentales (entrada de página completa, entrada de elementos individuales y entrada multimodal optimizada) para evaluar el rendimiento del modelo en diferentes estructuras de datos. Los resultados cuantitativos indicaron que las entradas no estructuradas condujeron a una degradación significativa del rendimiento debido a fallas de segmentación y reconocimiento óptico de caracteres (OCR). Incluso en condiciones optimizadas, los modelos presentaban fallos de razonamiento fundamentales. El análisis cualitativo reveló que los “errores de percepción” eran dominantes, destacando una “brecha entre percepción y cognición” donde los modelos no lograban interpretar significados simbólicos en diagramas esquemáticos a pesar de reconocer datos visuales. Además, los modelos demostraron una “discrepancia de cálculo-conceptualización”, realizando cálculos con éxito sin aplicar los conceptos científicos subyacentes, y un “proceso de alucinación”, donde los modelos omitieron la verificación visual en favor de conocimientos previos plausibles pero infundados. Al abordar el desafío del uso no autorizado de la IA en los cursos, este estudio proporciona pistas prácticas para diseñar “preguntas resistentes a la IA” que se dirijan a estas vulnerabilidades cognitivas específicas. Al explotar las debilidades de la IA, como la brecha entre percepción y cognición, los educadores pueden distinguir la competencia genuina de los estudiantes de las respuestas generadas por la IA, garantizando así la equidad en la evaluación.
Publicado originalmente en export.arxiv.org el 18 de diciembre de 2025.
Ver fuente original
