En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Está pensando o engañando? Detectar la piratería de recompensas implícitas midiendo el esfuerzo de razonamiento

¿Está pensando o engañando? Detectar la piratería de recompensas implícitas midiendo el esfuerzo de razonamiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La piratería de recompensas, donde un modelo de razonamiento explota las lagunas en una función de recompensa para lograr altas recompensas sin resolver la tarea prevista, plantea una amenaza significativa. Este comportamiento puede ser explícito, es decir, verbalizado en la cadena de pensamiento del modelo (COT), o implícita, donde la cuna parece benigna, por lo tanto, pasa por alto los monitores de la cuna. Para detectar la piratería de recompensas implícitas, proponemos Trace (evaluación de razonamiento truncado AUC). Nuestra observación clave es que la piratería ocurre al explotar el laguna es más fácil que resolver la tarea real. Esto significa que el modelo está utilizando menos “esfuerzo” del requerido para lograr una alta recompensa. Trace cuantifica el esfuerzo midiendo cómo el razonamiento temprano de un modelo se vuelve suficiente para pasar un verificador. Truncamos progresivamente la cuna de un modelo en varias longitudes, obligamos al modelo a responder y medimos la tasa de pasto del verificador en cada corte. Un modelo de piratería, que toma un atajo, alcanzará una alta tasa de pase con solo una pequeña fracción de su cuna, produciendo un área grande bajo la curva de precisión-longitud de vs. Trace logra más del 65% de ganancias sobre nuestro monitor de cuna más fuerte de 72B en razonamiento matemático, y más del 30% de ganancias sobre un monitor de 32B en la codificación. Además, mostramos que Trace puede descubrir lagunas desconocidas durante el entrenamiento. En general, Trace ofrece un enfoque escalable no supervisado para la supervisión donde los métodos de monitoreo actuales resultan ineficaces.

Publicado Originalme en export.arxiv.org El 2 de octubre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web