Piense antes de recuperar: aprender la búsqueda adaptativa en el momento de la prueba con modelos de lenguaje pequeños

Resumen: La recuperación eficaz de información requiere razonar sobre evidencia parcial y refinar estrategias a medida que emerge la información. Sin embargo, los enfoques actuales se quedan cortos: los recuperadores neuronales carecen de capacidades de razonamiento, los modelos de lenguaje grande (LLM) proporcionan profundidad semántica pero a un costo prohibitivo, y la reescritura o descomposición de consultas limita la mejora de las transformaciones estáticas. Como resultado, los métodos existentes no logran capturar la dinámica iterativa de exploración, retroalimentación y revisión que exigen las consultas complejas de los usuarios. Presentamos Orion, un marco de entrenamiento que permite que modelos compactos (parámetros 350M-1.2B) realicen recuperación iterativa a través de estrategias de búsqueda aprendidas. Orion combina: (1) generación de trayectorias sintéticas y ajuste supervisado para fomentar diversos patrones de exploración en modelos, (2) aprendizaje por refuerzo (RL) que recompensa el refinamiento efectivo de consultas y comportamientos de retroceso, y (3) algoritmos de búsqueda de haces en tiempo de inferencia que explotan las capacidades de autorreflexión aprendidas durante RL. A pesar de utilizar solo el 3 % de los datos de entrenamiento disponibles, nuestro modelo 1.2B logra un 77,6 % de éxito en SciFact (frente al 72,6 % de los recuperadores anteriores), un 25,2 % en BRIGHT (frente al 22,1 %), un 63,2 % en NFCorpus (frente al 57,8 %) y sigue siendo competitivo en FEVER, HotpotQA y MSMarco. Supera a los perros perdigueros hasta 200-400 veces más grandes en cinco de seis puntos de referencia. Estos hallazgos sugieren que el rendimiento de la recuperación puede surgir de estrategias aprendidas, no sólo de la escala del modelo, cuando los modelos se entrenan para buscar, reflexionar y revisar.

Publicado originalmente en export.arxiv.org el 11 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Algoritmos para la programación dinámica en la fabricación, hacia fábricas digitales Mejorando la viabilidad de los plazos y la capacidad de respuesta a través de redes temporales

CTX2TRAJGEN: Trayectorias de vehículos de microescala consciente de tráfico utilizando aprendizaje de imitación adversaria generativa

Mesas redondas: dentro del imperio de OpenAi con Karen Hao

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido