Resumen: Los modelos de lenguaje grande (LLM, por sus siglas en inglés) se utilizan cada vez más como motores de razonamiento para sistemas de IA agentes, pero presentan un defecto crítico: una adherencia rígida a reglas explícitas que conduce a decisiones desalineadas con el sentido común y la intención humanos. Esta “rigidez de las reglas” es una barrera importante para la construcción de agentes autónomos confiables. Si bien trabajos anteriores han demostrado que el ajuste supervisado (SFT) con explicaciones humanas puede mitigar este problema, el SFT es computacionalmente costoso e inaccesible para muchos profesionales. Para abordar esta brecha, presentamos el marco de distinción de intención de regla (RID), una novedosa técnica de metaincitación de baja computación diseñada para provocar un manejo de excepciones alineado por humanos en LLM de manera inmediata. El marco RID proporciona al modelo un esquema cognitivo estructurado para deconstruir tareas, clasificar reglas, sopesar resultados conflictivos y justificar su decisión final. Evaluamos el marco RID frente a la línea de base y la cadena de pensamiento (CoT) en un punto de referencia personalizado de 20 escenarios que requieren un juicio matizado en diversos dominios. Nuestros resultados verificados por humanos demuestran que el marco RID mejora significativamente el rendimiento, logrando una puntuación de alineación humana (HAS) del 95 %, en comparación con el 80 % de la línea de base y el 75 % de CoT. Además, produce constantemente un razonamiento basado en la intención y de mayor calidad. Este trabajo presenta un método práctico, accesible y eficaz para guiar a los LLM desde el seguimiento literal de instrucciones hacia un razonamiento liberal y orientado a objetivos, allanando el camino para agentes de IA más confiables y pragmáticos.
Publicado originalmente en export.arxiv.org el 15 de octubre de 2025.
Ver fuente original
