Resumen: El marco Agent Skill, ahora ampliamente respaldado oficialmente por importantes actores como GitHub Copilot, LangChain y OpenAI, funciona especialmente bien con modelos propietarios al mejorar la ingeniería de contexto, reducir las alucinaciones y aumentar la precisión de las tareas. Con base en estas observaciones, se lleva a cabo una investigación para determinar si el paradigma de habilidad del agente proporciona beneficios similares a los modelos de lenguaje pequeño (SLM). Esta pregunta es importante en escenarios industriales donde la dependencia continua de las API públicas es inviable debido a requisitos de seguridad de datos y restricciones presupuestarias, y donde los SLM a menudo muestran una generalización limitada en escenarios altamente personalizados. Este trabajo presenta una definición matemática formal del proceso de habilidad del agente, seguida de una evaluación sistemática de modelos de lenguaje de diferentes tamaños en múltiples casos de uso. La evaluación abarca dos tareas de código abierto y un conjunto de datos de reclamaciones de seguros del mundo real. Los resultados muestran que los modelos pequeños tienen dificultades con la selección confiable de habilidades, mientras que los SLM de tamaño moderado (aproximadamente 12B – 30B) se benefician sustancialmente del enfoque de Habilidad del Agente. Además, las variantes de código especializado con alrededor de 80 mil millones de parámetros logran un rendimiento comparable a las líneas base de código cerrado al tiempo que mejoran la eficiencia de la GPU. En conjunto, estos hallazgos brindan una caracterización integral y matizada de las capacidades y limitaciones del marco, al tiempo que brindan información útil para la implementación efectiva de Agent Skills en entornos centrados en SLM.
Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original
