Enseñar a los LLM a preguntar: planificación teórica de categorías de autoconsulta para un razonamiento poco especificado

Resumen: La planificación del tiempo de inferencia con modelos de lenguaje grandes frecuentemente falla bajo observabilidad parcial: cuando las condiciones previas de la tarea crítica no se especifican en el momento de la consulta, los modelos tienden a alucinar hechos faltantes o producir planes que violan restricciones estrictas. Presentamos textbf{Planificación categórica bidireccional de autoconsulta (SQ-BCP)}, que representa explícitamente el estado de la condición previa (texttt{Sat}/texttt{Viol}/texttt{Unk}) y resuelve incógnitas a través de (i) autoconsultas dirigidas a un oráculo/usuario o (ii) hipótesis emph{bridging} que establecen la condición faltante a través de una acción adicional. SQ-BCP realiza una búsqueda bidireccional e invoca un verificador basado en retroceso como un certificado categórico de compatibilidad de objetivos, mientras utiliza puntuaciones basadas en distancia solo para clasificación y poda. Demostramos que cuando el verificador tiene éxito y las restricciones estrictas pasan controles deterministas, los planes aceptados son compatibles con los requisitos del objetivo; bajo ramificación limitada y profundidad de resolución finita, SQ-BCP encuentra un plan de aceptación cuando existe. En todas las tareas de WikiHow y RecipeNLG con condiciones previas retenidas, SQ-BCP reduce las tasas de violación de recursos a textbf{14.9%} y textbf{5.8%} (vs. textbf{26.0%} y textbf{15.7%} para la mejor línea de base), manteniendo al mismo tiempo una calidad de referencia competitiva.

Publicado originalmente en export.arxiv.org el 28 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Linux Foundation le da la bienvenida al proyecto Agntcy para estandarizar la infraestructura del sistema de múltiples agentes abiertos y desglosar el agente de IA Silos

Modelos de idiomas pequeños para sistemas de agente: una encuesta de arquitecturas, capacidades y compensaciones de implementación.

Documento AIOTI El papel de los sensores de monitoreo remoto

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido