En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Energía derramada en modelos de lenguaje grandes

Energía derramada en modelos de lenguaje grandes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Reinterpretamos el clasificador softmax final del Modelo de lenguaje grande (LLM) como un modelo basado en energía (EBM), descomponiendo la cadena de probabilidad de secuencia a secuencia en múltiples EBM que interactúan en la inferencia. Este enfoque de principios nos permite rastrear los “derrames de energía” durante la decodificación, que empíricamente demostramos que se correlacionan con errores, sesgos y fallas factuales. Al igual que Orgad et al. (2025), nuestro método localiza la ficha de respuesta exacta y posteriormente realiza pruebas de alucinaciones. Sin embargo, lo más importante es que logramos esto sin necesidad de clasificadores de sondas capacitados ni ablaciones de activación. En su lugar, introducimos dos métricas completamente libres de entrenamiento derivadas directamente de los logits de producción: energía derramada, que captura la discrepancia entre los valores de energía en pasos de generación consecutivos que teóricamente deberían coincidir, y energía marginada, que se puede medir en un solo paso. Evaluado en nueve puntos de referencia de LLM de última generación (incluidos LLaMA, Mistral y Gemma) y en operaciones algebraicas sintéticas (Qwen3), nuestro enfoque demuestra una detección de alucinaciones sólida y competitiva y una generalización de tareas cruzadas. En particular, estos resultados son válidos tanto para las variantes previamente entrenadas como para las variantes ajustadas por instrucción sin introducir ninguna sobrecarga de entrenamiento.

Publicado originalmente en export.arxiv.org el 23 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web