Energía derramada en modelos de lenguaje grandes

Resumen: Reinterpretamos el clasificador softmax final del Modelo de lenguaje grande (LLM) como un modelo basado en energía (EBM), descomponiendo la cadena de probabilidad de secuencia a secuencia en múltiples EBM que interactúan en la inferencia. Este enfoque de principios nos permite rastrear los “derrames de energía” durante la decodificación, que empíricamente demostramos que se correlacionan con errores, sesgos y fallas factuales. Al igual que Orgad et al. (2025), nuestro método localiza la ficha de respuesta exacta y posteriormente realiza pruebas de alucinaciones. Sin embargo, lo más importante es que logramos esto sin necesidad de clasificadores de sondas capacitados ni ablaciones de activación. En su lugar, introducimos dos métricas completamente libres de entrenamiento derivadas directamente de los logits de producción: energía derramada, que captura la discrepancia entre los valores de energía en pasos de generación consecutivos que teóricamente deberían coincidir, y energía marginada, que se puede medir en un solo paso. Evaluado en nueve puntos de referencia de LLM de última generación (incluidos LLaMA, Mistral y Gemma) y en operaciones algebraicas sintéticas (Qwen3), nuestro enfoque demuestra una detección de alucinaciones sólida y competitiva y una generalización de tareas cruzadas. En particular, estos resultados son válidos tanto para las variantes previamente entrenadas como para las variantes ajustadas por instrucción sin introducir ninguna sobrecarga de entrenamiento.

Publicado originalmente en export.arxiv.org el 23 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Hacia una recompensa escalable y verificable: evaluación basada en el estado proxy para agentes LLM que llaman a herramientas de múltiples turnos

Craft-Gui: agente reforzado con el plan de estudios para tareas de GUI

La restricción de calorías puede ayudar a los animales a vivir más tiempo. ¿Qué pasa con los humanos?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido