Resumen: Los modelos de lenguaje grande (LLM, por sus siglas en inglés) se utilizan cada vez más como motores de razonamiento para sistemas de IA agentes, pero presentan un defecto crítico: una adherencia rígida a reglas explícitas que conduce a decisiones desalineadas con el sentido común y la intención humanos. Esta “rigidez de las reglas” es una barrera importante para la construcción de agentes autónomos confiables. Si bien trabajos anteriores han demostrado que el ajuste supervisado (SFT) con explicaciones humanas puede mitigar este problema, el SFT es computacionalmente costoso e inaccesible para muchos profesionales. Para abordar esta brecha, presentamos el marco de distinción de intención de regla (RID), una novedosa técnica de metaincitación de baja computación diseñada para provocar un manejo de excepciones alineado por humanos en LLM de manera inmediata. El marco RID proporciona al modelo un esquema cognitivo estructurado para deconstruir tareas, clasificar reglas, sopesar resultados conflictivos y justificar su decisión final. Evaluamos el marco RID frente a la línea de base y la cadena de pensamiento (CoT) en un punto de referencia personalizado de 20 escenarios que requieren un juicio matizado en diversos dominios. Nuestros resultados verificados por humanos demuestran que el marco RID mejora significativamente el rendimiento, logrando una puntuación de alineación humana (HAS) del 95 %, en comparación con el 80 % de la línea de base y el 75 % de CoT. Además, produce constantemente un razonamiento basado en la intención y de mayor calidad. Este trabajo presenta un método práctico, accesible y eficaz para guiar a los LLM desde el seguimiento literal de instrucciones hacia un razonamiento liberal y orientado a objetivos, allanando el camino para agentes de IA más confiables y pragmáticos.

Publicado originalmente en export.arxiv.org el 15 de octubre de 2025.
Ver fuente original

De literal a liberal: un marco de metaincitación para provocar un manejo de excepciones alineado con humanos en modelos de lenguaje grandes

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

PINTURA: Gemelos neuronales paralelos en el tiempo para la reconstrucción del sistema dinámico

Compilación de la programación del conjunto de respuestas temporales métricas

Los modelos de lenguaje optimizados en el momento de la prueba permiten la generación de estructuras moleculares de novo de extremo a extremo a partir de espectros MS/MS

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido