Mejora del aprendizaje interactivo en contexto a partir de comentarios en lenguaje natural

Resumen: Adaptar el proceso de pensamiento basado en la retroalimentación correctiva es una habilidad esencial en el aprendizaje humano, particularmente en entornos colaborativos. Por el contrario, el paradigma actual de entrenamiento de grandes modelos de lenguaje se basa en gran medida en el modelado de corpus vastos y estáticos. Si bien es eficaz para la adquisición de conocimientos, pasa por alto los circuitos de retroalimentación interactiva esenciales para que los modelos se adapten dinámicamente a su contexto. En este trabajo, proponemos un marco que trata esta capacidad de aprendizaje interactivo en contexto no como una propiedad emergente, sino como una habilidad distinta y entrenable. Introducimos un método escalable que transforma tareas verificables de un solo turno en interacciones didácticas de múltiples turnos impulsadas por la asimetría de la información. Primero mostramos que los modelos emblemáticos actuales tienen dificultades para integrar retroalimentación correctiva en tareas de razonamiento difíciles. Luego demostramos que los modelos entrenados con nuestro enfoque mejoran drásticamente la capacidad de aprender interactivamente a partir de comentarios lingüísticos. Más específicamente, el rendimiento multigiro de un modelo más pequeño casi alcanza el de un modelo de un orden de magnitud mayor. También observamos una sólida generalización fuera de la distribución: la capacitación interactiva sobre problemas matemáticos se transfiere a diversos dominios como codificación, acertijos y navegación por laberintos. Nuestro análisis cualitativo sugiere que esta mejora se debe a una mayor plasticidad en contexto. Finalmente, mostramos que este paradigma ofrece un camino unificado hacia la superación personal. Al entrenar el modelo para predecir las críticas del profesor, modelando eficazmente el entorno de retroalimentación, convertimos esta señal externa en una capacidad interna, permitiendo que el modelo se autocorrija incluso sin un profesor.

Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

AssurAI: experiencia en la construcción de conjuntos de datos socioculturales coreanos para descubrir los riesgos potenciales de la IA generativa

Pensar más allá de las fichas: desde la inteligencia inspirada en el cerebro hasta las fundaciones cognitivas para la inteligencia general artificial y su impacto social

La descarga: la postura de Microsoft sobre la IA erótica y un misterio publicitario sobre la IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido