En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Entrenamiento en tándem para modelos de lenguaje

Entrenamiento en tándem para modelos de lenguaje

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:A medida que los modelos de lenguaje continúan mejorando rápidamente, podemos esperar que sus acciones y razonamientos se vuelvan difíciles o imposibles de seguir para los agentes y humanos más débiles, lo que socava la interpretabilidad y la supervisión. Con la vista puesta en el futuro a largo plazo, buscamos métodos que alienten a los modelos a producir soluciones que sigan siendo inteligibles para los colaboradores más débiles. Formalizamos la inteligibilidad como robustez de la transferencia: la solución de un modelo fuerte es inteligible para un modelo más débil si la transferencia aleatoria del control al modelo más débil a lo largo del camino de la solución no causa falla. Sobre la base de este criterio, introducimos el entrenamiento en tándem para modelos de lenguaje, un paradigma de aprendizaje por refuerzo (RL) en el que los tokens de implementación se muestrean de manera intermitente y aleatoria a partir de un modelo débil congelado en lugar del modelo fuerte que se está entrenando. Debido a que las implementaciones tienen éxito solo cuando las acciones y el proceso de razonamiento del modelo fuerte pueden ser continuados por el modelo débil (cuando los dos pueden co-construir una solución exitosa), la optimización de los objetivos estándar de RL con entrenamiento en tándem incentiva implícitamente tanto la corrección como la inteligibilidad. En la tarea de razonamiento matemático GSM8K, el entrenamiento en tándem enseña de manera confiable a los modelos a abandonar la jerga y adaptar su lenguaje a los socios más débiles mientras mantiene alta la precisión de la tarea. Nuestros resultados demuestran una ruta prometedora para construir sistemas de IA que sigan siendo auditables por agentes más débiles, con implicaciones para la colaboración entre humanos y la IA y la comunicación entre agentes.

Publicado originalmente en export.arxiv.org el 15 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web