Resumen: La evaluación de la consistencia en modelos de lenguaje grande (LLMS) es crucial para garantizar la confiabilidad, particularmente en interacciones complejas de múltiples pasos entre humanos y LLM. Los métodos de autoconsistencia tradicionales a menudo pierden cambios semánticos sutiles en el lenguaje natural y los cambios funcionales en el código o las ecuaciones, lo que puede acumularse en múltiples transformaciones. Para abordar esto, proponemos consistencia Checker, un marco de evaluación basado en árboles diseñado para medir la consistencia a través de secuencias de transformaciones reversibles, incluidas las tareas de traducción automática y las tareas de programación asistidas por AI-AI. En nuestro marco, los nodos representan distintos estados de texto, mientras que los bordes corresponden a pares de operaciones inversas. Los puntos de referencia generados por Dynamic y LLM aseguran una evaluación justa de la capacidad de generalización del modelo y eliminan la fuga de referencia. La consistencia se cuantifica en función de la similitud en diferentes profundidades del árbol de transformación. Los experimentos en ocho modelos de varias familias y tamaños muestran que consistencia CHECKER puede distinguir el rendimiento de diferentes modelos. En particular, nuestros puntajes de consistencia computados completamente sin usar datos de datos emparejados con WMT con fuerza (R> 0.7) con el rango automático de WMT 2024, lo que demuestra la validez de nuestro enfoque libre de referencia. Nuestra implementación está disponible en: esta URL HTTPS.
Publicado Originalme en rss.arxiv.org El 16 de junio de 2025.
Ver Fuente Original