Optimización de la anotación LLM del discurso en el aula mediante la orquestación de múltiples agentes

Resumen: Los modelos de lenguaje grande (LLM) se posicionan cada vez más como herramientas escalables para anotar datos educativos, incluido el discurso en el aula, registros de interacción y artefactos de aprendizaje cualitativo. Su capacidad para resumir rápidamente las interacciones instructivas y asignar etiquetas alineadas con rúbricas ha alimentado el optimismo sobre la reducción del costo y el tiempo asociados con la anotación humana experta. Sin embargo, cada vez hay más evidencia que sugiere que los resultados de un LLM de un solo paso siguen siendo poco confiables para construcciones educativas de alto riesgo que requieren juicios contextuales, pedagógicos o normativos, como la intención de instrucción o los movimientos del discurso. Esta tensión entre escala y validez se encuentra en el centro de la ciencia de datos educativa contemporánea. En este trabajo, presentamos y evaluamos empíricamente un marco de orquestación jerárquico y consciente de los costos para la anotación basada en LLM que mejora la confiabilidad al tiempo que modela explícitamente las compensaciones computacionales. En lugar de tratar la anotación como un problema de predicción de un solo paso, la conceptualizamos como un proceso epistémico de múltiples etapas que comprende (1) una etapa de anotación de un solo paso no verificada, en la que los modelos asignan etiquetas de forma independiente según la rúbrica; (2) una etapa de autoverificación, en la que cada modelo audita su propio resultado comparándolo con las definiciones de las rúbricas y revisa su etiqueta si se detectan inconsistencias; y (3) una etapa de adjudicación centrada en el desacuerdo, en la que un modelo de adjudicador independiente examina las etiquetas y justificaciones verificadas y determina una etiqueta final de acuerdo con la rúbrica. Esta estructura refleja los flujos de trabajo de anotación humana establecidos en la investigación educativa, donde a la codificación inicial le sigue la autoverificación y la resolución experta de los desacuerdos.

Publicado originalmente en export.arxiv.org el 16 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Mejora de la diversidad y la viabilidad: síntesis poblacional conjunta a partir de datos de fuentes múltiples utilizando modelos generativos

La inminente represión en la compañía de IA

La clonación no es sólo para mascotas famosas como el perro de Tom Brady

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido