En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Mejora del aprendizaje interactivo en contexto a partir de comentarios en lenguaje natural

Mejora del aprendizaje interactivo en contexto a partir de comentarios en lenguaje natural

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Adaptar el proceso de pensamiento basado en la retroalimentación correctiva es una habilidad esencial en el aprendizaje humano, particularmente en entornos colaborativos. Por el contrario, el paradigma actual de entrenamiento de grandes modelos de lenguaje se basa en gran medida en el modelado de corpus vastos y estáticos. Si bien es eficaz para la adquisición de conocimientos, pasa por alto los circuitos de retroalimentación interactiva esenciales para que los modelos se adapten dinámicamente a su contexto. En este trabajo, proponemos un marco que trata esta capacidad de aprendizaje interactivo en contexto no como una propiedad emergente, sino como una habilidad distinta y entrenable. Introducimos un método escalable que transforma tareas verificables de un solo turno en interacciones didácticas de múltiples turnos impulsadas por la asimetría de la información. Primero mostramos que los modelos emblemáticos actuales tienen dificultades para integrar retroalimentación correctiva en tareas de razonamiento difíciles. Luego demostramos que los modelos entrenados con nuestro enfoque mejoran drásticamente la capacidad de aprender interactivamente a partir de comentarios lingüísticos. Más específicamente, el rendimiento multigiro de un modelo más pequeño casi alcanza el de un modelo de un orden de magnitud mayor. También observamos una sólida generalización fuera de la distribución: la capacitación interactiva sobre problemas matemáticos se transfiere a diversos dominios como codificación, acertijos y navegación por laberintos. Nuestro análisis cualitativo sugiere que esta mejora se debe a una mayor plasticidad en contexto. Finalmente, mostramos que este paradigma ofrece un camino unificado hacia la superación personal. Al entrenar el modelo para predecir las críticas del profesor, modelando eficazmente el entorno de retroalimentación, convertimos esta señal externa en una capacidad interna, permitiendo que el modelo se autocorrija incluso sin un profesor.

Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web