Resumen: La recuperación eficaz de información requiere razonar sobre evidencia parcial y refinar estrategias a medida que emerge la información. Sin embargo, los enfoques actuales se quedan cortos: los recuperadores neuronales carecen de capacidades de razonamiento, los modelos de lenguaje grande (LLM) proporcionan profundidad semántica pero a un costo prohibitivo, y la reescritura o descomposición de consultas limita la mejora de las transformaciones estáticas. Como resultado, los métodos existentes no logran capturar la dinámica iterativa de exploración, retroalimentación y revisión que exigen las consultas complejas de los usuarios. Presentamos Orion, un marco de entrenamiento que permite que modelos compactos (parámetros 350M-1.2B) realicen recuperación iterativa a través de estrategias de búsqueda aprendidas. Orion combina: (1) generación de trayectorias sintéticas y ajuste supervisado para fomentar diversos patrones de exploración en modelos, (2) aprendizaje por refuerzo (RL) que recompensa el refinamiento efectivo de consultas y comportamientos de retroceso, y (3) algoritmos de búsqueda de haces en tiempo de inferencia que explotan las capacidades de autorreflexión aprendidas durante RL. A pesar de utilizar solo el 3 % de los datos de entrenamiento disponibles, nuestro modelo 1.2B logra un 77,6 % de éxito en SciFact (frente al 72,6 % de los recuperadores anteriores), un 25,2 % en BRIGHT (frente al 22,1 %), un 63,2 % en NFCorpus (frente al 57,8 %) y sigue siendo competitivo en FEVER, HotpotQA y MSMarco. Supera a los perros perdigueros hasta 200-400 veces más grandes en cinco de seis puntos de referencia. Estos hallazgos sugieren que el rendimiento de la recuperación puede surgir de estrategias aprendidas, no sólo de la escala del modelo, cuando los modelos se entrenan para buscar, reflexionar y revisar.
Publicado originalmente en export.arxiv.org el 11 de noviembre de 2025.
Ver fuente original
