Resumen: Los modelos de lenguaje pequeño (SLM) ofrecen ventajas convincentes en el costo de implementación y la latencia, pero su precisión a menudo va por detrás de los modelos más grandes, particularmente para tareas complejas específicas de un dominio. Si bien el ajuste supervisado puede ayudar a cerrar esta brecha de rendimiento, requiere un esfuerzo manual sustancial en la preparación de datos y la optimización iterativa. Presentamos PaDA-Agent (Agente de aumento de datos guiado por patrones), un enfoque basado en evaluación que agiliza el proceso de aumento de datos para SLM a través de operaciones coordinadas. A diferencia de los enfoques de última generación que se centran únicamente en los errores de entrenamiento del modelo y generan muestras de corrección de errores, PaDA-Agent descubre patrones de falla a partir de los datos de validación a través de evaluaciones y redacta estrategias de aumento de datos específicas con el objetivo de reducir directamente la brecha de generalización. Nuestros resultados experimentales demuestran mejoras significativas con respecto a los enfoques de aumento de datos basados en LLM de última generación para el ajuste fino del modelo Llama 3.2 1B Instruct.
Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original
