Resumen:Los modelos de lenguajes grandes han superado recientemente a los sistemas especializados en la generación de código, pero su efectividad en otras tareas de análisis de código sigue siendo menos clara. Al mismo tiempo, el aprendizaje multitarea ofrece una manera de unificar diversos objetivos dentro de un solo modelo, pero ajustar completamente los LLM en todas las tareas es computacionalmente prohibitivo. El ajuste eficiente de los parámetros mitiga este costo al actualizar solo una pequeña fracción de los pesos. Aunque PEFT ha demostrado ser eficaz en entornos de una sola tarea, su potencial para el aprendizaje multitarea aún no se ha explorado sistemáticamente. Presentamos la primera evaluación integral de PEFT multitarea para análisis de código, comparando varios métodos en diversas tareas y arquitecturas de modelos. Nuestros experimentos muestran que un único módulo PEFT compartido entre tareas puede igualar, y en algunos casos superar, el ajuste completo de múltiples tareas, lo que confirma que los beneficios de PEFT se extienden más allá de las tareas aisladas. Al comparar configuraciones de tarea única y multitarea, encontramos que PEFT multitarea logra una compensación favorable entre rendimiento y eficiencia: ofrece una precisión cercana al ajuste fino de una sola tarea al tiempo que reduce los requisitos de almacenamiento, reduce la cantidad de parámetros entrenables en un factor del recuento de tareas y reduce los costos de cálculo hasta en un 85 %. Al mismo tiempo, los avances en tareas múltiples siguen siendo sensibles a la agrupación de tareas. A través de experimentos de emparejamiento de tareas, identificamos factores clave que dan forma a los resultados: la estabilidad de la tarea, la arquitectura del modelo, la complementariedad de la tarea, la asimetría y la calidad del conjunto de datos determinan el éxito del ajuste conjunto. Finalmente, comparamos PEFT multitarea eficiente con la solicitud directa de LLM de propósito general de código abierto, incluidos DeepSeek, Qwen, Mistral, CodeLlama y StarCoder. A pesar de su sólido rendimiento en la generación de código, estos modelos tienen un rendimiento inferior en tareas de análisis, donde incluso un modelo de 1B de parámetros con PEFT multitarea logra resultados significativamente mejores.
Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original
