ssToken: selección de tokens automodulada y con reconocimiento semántico para el ajuste fino de LLM

Resumen:La calidad de los datos desempeña un papel fundamental en la mejora del ajuste fino supervisado (SFT) para modelos de lenguajes grandes (LLM), y la selección de datos a nivel de token se ha convertido en una dirección prometedora por su naturaleza detallada. A pesar de su sólido desempeño empírico, los métodos de selección a nivel de token existentes comparten dos limitaciones clave: (1) requieren capacitación o acceso a un modelo de referencia adicional, y (2) dependen únicamente de la información de pérdida para la selección de tokens, que no pueden preservar tokens semánticamente importantes que no se ven favorecidos por las métricas basadas en pérdidas. Para abordar estos desafíos, proponemos ssToken, un enfoque de selección de tokens automodulado y con conciencia semántica. ssToken aprovecha modelos históricos fácilmente accesibles para calcular la diferencia de pérdida por token con el modelo actual, que sirve como una señal automodulada que permite al modelo seleccionar tokens de forma adaptativa a lo largo de su trayectoria de optimización, en lugar de depender del exceso de pérdida de un modelo de referencia entrenado fuera de línea como en trabajos anteriores. Además, presentamos una métrica de estimación de importancia de token basada en la atención y consciente de la semántica, ortogonal a la selección basada en pérdidas y que proporciona información semántica complementaria para un filtrado más efectivo. Amplios experimentos en diferentes familias de modelos y escalas demuestran que tanto la selección automodulada como la selección con conciencia semántica por sí solas superan el ajuste fino de datos completos, mientras que su integración (ssToken) logra ganancias sinérgicas y supera aún más los métodos anteriores de selección a nivel de token, brindando mejoras de rendimiento mientras se mantiene la eficiencia del entrenamiento.

Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Razonamiento contrafactual explicable en la selección de medicamentos de depresión a niveles múltiples (personalizado y población)

Contaminación de datos de tiempo de búsqueda

Comente sobre la ilusión del pensamiento: Comprender las fortalezas y limitaciones de los modelos de razonamiento a través de la lente de la complejidad de los problemas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido