En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Exploración de las debilidades en los modelos de llamadas de funciones mediante el aprendizaje por refuerzo: un enfoque de aumento de datos contradictorios

Exploración de las debilidades en los modelos de llamadas de funciones mediante el aprendizaje por refuerzo: un enfoque de aumento de datos contradictorios

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las capacidades de llamada a funciones se han vuelto cruciales para los modelos de lenguajes grandes (LLM), permitiéndoles interactuar de manera más efectiva con herramientas y API externas. Los métodos existentes para mejorar las capacidades de llamada de funciones de los LLM se basan en datos obtenidos mediante anotaciones manuales o generación automatizada por modelos, y utilizan estos datos para ajustar los LLM. Sin embargo, estos métodos a menudo carecen de un diseño específico y están limitados por patrones fijos y distribuciones de datos, lo que limita su efectividad para mejorar la generalización y la solidez de los LLM de llamadas de funciones. Para abordar esta limitación, proponemos un novedoso método de aumento de datos adversarios que emplea el aprendizaje por refuerzo para identificar y abordar sistemáticamente las debilidades de las funciones llamadas LLM. Nuestro marco de capacitación presenta un modelo de consulta entrenado con aprendizaje por refuerzo (RL) para generar consultas adversas que están diseñadas específicamente para desafiar los modelos de llamada de función (FC). Este enfoque adopta una formulación de juego de suma cero, donde el modelo de consulta y el modelo FC participan en un entrenamiento alternativo iterativo. En general, nuestro método promueve el desarrollo de modelos FC más robustos y proporciona una forma sistemática de identificar y corregir debilidades en la capacidad de los LLM para interactuar con herramientas externas.

Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web