Resumen: Los modelos de lenguaje grande (LLM) han surgido como un paradigma de IA dominante debido a su excepcional comprensión de texto y capacidades de generación. Sin embargo, su tendencia a generar resultados inconsistentes o erróneos desafía su confiabilidad, especialmente en dominios de alto riesgo que requieren precisión y confiabilidad. La investigación existente se centra principalmente en detectar y mitigar el mal comportamiento modelo en escenarios de uso general, a menudo con vistas al potencial de integrar el conocimiento específico del dominio. En este trabajo, avanzamos la detección de mal comportamiento incorporando el conocimiento del dominio. La idea central es diseñar un lenguaje de especificación general que permita a los expertos en dominio personalizar predicados específicos del dominio de manera liviana e intuitiva, lo que respalda la verificación posterior en tiempo de ejecución de las salidas LLM. Para lograr esto, diseñamos un lenguaje de especificación novedoso, ESL e introducimos un marco de verificación de tiempo de ejecución, RVLLM, para validar la salida de LLM contra restricciones específicas del dominio definidas en ESL. Evaluamos RVLLM en tres tareas representativas: detección de violación contra la Ley de Sistemas de Tránsito Rápido de Singapur, comparación numérica y resolución de desigualdad. Los resultados experimentales demuestran que RVLLM detecta efectivamente las salidas erróneas en varios LLM de manera liviana y flexible. Los resultados revelan que a pesar de sus impresionantes capacidades, los LLM siguen siendo propensos a errores de bajo nivel debido a la interpretabilidad limitada y la falta de garantías formales durante la inferencia, y nuestro marco ofrece una solución potencial a largo plazo al aprovechar el conocimiento de dominio experto para verificar rigurosa y eficientemente los resultados de LLM.
Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original