En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Aprender de patrones de generalización: un enfoque basado en evaluaciones para mejorar el aumento de datos para ajustar modelos de lenguajes pequeños

Aprender de patrones de generalización: un enfoque basado en evaluaciones para mejorar el aumento de datos para ajustar modelos de lenguajes pequeños

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje pequeño (SLM) ofrecen ventajas convincentes en el costo de implementación y la latencia, pero su precisión a menudo va por detrás de los modelos más grandes, particularmente para tareas complejas específicas de un dominio. Si bien el ajuste supervisado puede ayudar a cerrar esta brecha de rendimiento, requiere un esfuerzo manual sustancial en la preparación de datos y la optimización iterativa. Presentamos PaDA-Agent (Agente de aumento de datos guiado por patrones), un enfoque basado en evaluación que agiliza el proceso de aumento de datos para SLM a través de operaciones coordinadas. A diferencia de los enfoques de última generación que se centran únicamente en los errores de entrenamiento del modelo y generan muestras de corrección de errores, PaDA-Agent descubre patrones de falla a partir de los datos de validación a través de evaluaciones y redacta estrategias de aumento de datos específicas con el objetivo de reducir directamente la brecha de generalización. Nuestros resultados experimentales demuestran mejoras significativas con respecto a los enfoques de aumento de datos basados ​​en LLM de última generación para el ajuste fino del modelo Llama 3.2 1B Instruct.

Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web