Consistencia CHECKER: Evaluación basada en árbol de las capacidades de generalización de LLM

Resumen: La evaluación de la consistencia en modelos de lenguaje grande (LLMS) es crucial para garantizar la confiabilidad, particularmente en interacciones complejas de múltiples pasos entre humanos y LLM. Los métodos de autoconsistencia tradicionales a menudo pierden cambios semánticos sutiles en el lenguaje natural y los cambios funcionales en el código o las ecuaciones, lo que puede acumularse en múltiples transformaciones. Para abordar esto, proponemos consistencia Checker, un marco de evaluación basado en árboles diseñado para medir la consistencia a través de secuencias de transformaciones reversibles, incluidas las tareas de traducción automática y las tareas de programación asistidas por AI-AI. En nuestro marco, los nodos representan distintos estados de texto, mientras que los bordes corresponden a pares de operaciones inversas. Los puntos de referencia generados por Dynamic y LLM aseguran una evaluación justa de la capacidad de generalización del modelo y eliminan la fuga de referencia. La consistencia se cuantifica en función de la similitud en diferentes profundidades del árbol de transformación. Los experimentos en ocho modelos de varias familias y tamaños muestran que consistencia CHECKER puede distinguir el rendimiento de diferentes modelos. En particular, nuestros puntajes de consistencia computados completamente sin usar datos de datos emparejados con WMT con fuerza (R> 0.7) con el rango automático de WMT 2024, lo que demuestra la validez de nuestro enfoque libre de referencia. Nuestra implementación está disponible en: esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 16 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

SAJA: Un marco de ataque conjunto de acción estatal sobre el aprendizaje por refuerzo profundo de múltiples agentes

Zelo: método de entrenamiento inspirado en Elo para los vueltas y los modelos de incrustación

Los agentes del lenguaje reflejan los sesgos de razonamiento causal humano. ¿Cómo podemos ayudarlos a pensar como científicos?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido