Resumen:La corrección de consultas es un punto de entrada fundamental en los procesos de búsqueda modernos, que exigen una alta precisión estrictamente dentro de las limitaciones de latencia en tiempo real. El razonamiento en cadena de pensamiento (CoT) mejora la precisión, pero genera una latencia prohibitiva para la corrección de consultas en tiempo real. Una posible solución es generar una respuesta antes del razonamiento para reducir la latencia; sin embargo, bajo decodificación autorregresiva, la respuesta temprana es independiente del razonamiento posterior, lo que impide que el modelo aproveche su capacidad de razonamiento para mejorar la precisión. Para abordar este problema, proponemos Sandwich Reasoning (SandwichR), un enfoque novedoso que alinea explícitamente una respuesta inicial rápida con un razonamiento post-hoc, lo que permite la corrección de consultas de baja latencia sin sacrificar la precisión del razonamiento. SandwichR sigue un paradigma Respuesta-Razonamiento-Respuesta, produciendo una corrección inicial, un proceso de razonamiento explícito y una corrección final refinada. Para alinear la respuesta inicial con los conocimientos posteriores al razonamiento, diseñamos una estrategia de aprendizaje por refuerzo (RL) consciente de la coherencia: una recompensa de coherencia dedicada impone la alineación entre las correcciones iniciales y finales, mientras que el muestreo de rechazo basado en márgenes prioriza las muestras límite donde el razonamiento genera las ganancias correctivas más impactantes. Además, construimos un conjunto de datos de corrección de consultas de alta calidad, abordando la falta de puntos de referencia especializados para la corrección de consultas complejas. Los resultados experimentales demuestran que SandwichR logra una precisión SOTA comparable a la CoT estándar y al mismo tiempo ofrece una reducción de la latencia del 40 al 70 %, resolviendo el equilibrio entre latencia y precisión en la búsqueda en línea.
Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original
