Resumen:A medida que los modelos de lenguaje continúan mejorando rápidamente, podemos esperar que sus acciones y razonamientos se vuelvan difíciles o imposibles de seguir para los agentes y humanos más débiles, lo que socava la interpretabilidad y la supervisión. Con la vista puesta en el futuro a largo plazo, buscamos métodos que alienten a los modelos a producir soluciones que sigan siendo inteligibles para los colaboradores más débiles. Formalizamos la inteligibilidad como robustez de la transferencia: la solución de un modelo fuerte es inteligible para un modelo más débil si la transferencia aleatoria del control al modelo más débil a lo largo del camino de la solución no causa falla. Sobre la base de este criterio, introducimos el entrenamiento en tándem para modelos de lenguaje, un paradigma de aprendizaje por refuerzo (RL) en el que los tokens de implementación se muestrean de manera intermitente y aleatoria a partir de un modelo débil congelado en lugar del modelo fuerte que se está entrenando. Debido a que las implementaciones tienen éxito solo cuando las acciones y el proceso de razonamiento del modelo fuerte pueden ser continuados por el modelo débil (cuando los dos pueden co-construir una solución exitosa), la optimización de los objetivos estándar de RL con entrenamiento en tándem incentiva implícitamente tanto la corrección como la inteligibilidad. En la tarea de razonamiento matemático GSM8K, el entrenamiento en tándem enseña de manera confiable a los modelos a abandonar la jerga y adaptar su lenguaje a los socios más débiles mientras mantiene alta la precisión de la tarea. Nuestros resultados demuestran una ruta prometedora para construir sistemas de IA que sigan siendo auditables por agentes más débiles, con implicaciones para la colaboración entre humanos y la IA y la comunicación entre agentes.

Publicado originalmente en export.arxiv.org el 15 de octubre de 2025.
Ver fuente original

Entrenamiento en tándem para modelos de lenguaje

admin

HealthTech, Mexico Tech Week 2025

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Las neuronas artificiales se comunican directamente con las células vivas por primera vez

Demostrar inferencia a bordo para aplicaciones de ciencias de la tierra con algoritmos de análisis espectral y aprendizaje profundo

AI de Agentic: AI de próxima generación que funciona de manera autónoma

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido