¿Está pensando o engañando? Detectar la piratería de recompensas implícitas midiendo el esfuerzo de razonamiento

Resumen: La piratería de recompensas, donde un modelo de razonamiento explota las lagunas en una función de recompensa para lograr altas recompensas sin resolver la tarea prevista, plantea una amenaza significativa. Este comportamiento puede ser explícito, es decir, verbalizado en la cadena de pensamiento del modelo (COT), o implícita, donde la cuna parece benigna, por lo tanto, pasa por alto los monitores de la cuna. Para detectar la piratería de recompensas implícitas, proponemos Trace (evaluación de razonamiento truncado AUC). Nuestra observación clave es que la piratería ocurre al explotar el laguna es más fácil que resolver la tarea real. Esto significa que el modelo está utilizando menos “esfuerzo” del requerido para lograr una alta recompensa. Trace cuantifica el esfuerzo midiendo cómo el razonamiento temprano de un modelo se vuelve suficiente para pasar un verificador. Truncamos progresivamente la cuna de un modelo en varias longitudes, obligamos al modelo a responder y medimos la tasa de pasto del verificador en cada corte. Un modelo de piratería, que toma un atajo, alcanzará una alta tasa de pase con solo una pequeña fracción de su cuna, produciendo un área grande bajo la curva de precisión-longitud de vs. Trace logra más del 65% de ganancias sobre nuestro monitor de cuna más fuerte de 72B en razonamiento matemático, y más del 30% de ganancias sobre un monitor de 32B en la codificación. Además, mostramos que Trace puede descubrir lagunas desconocidas durante el entrenamiento. En general, Trace ofrece un enfoque escalable no supervisado para la supervisión donde los métodos de monitoreo actuales resultan ineficaces.

Publicado Originalme en export.arxiv.org El 2 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La impresión 3D basada en láser podría construir futuras bases en la Luna

Le di acceso a la policía a mi ADN, y tal vez algunos de los tuyos

IA agente para detección y comunicación integradas: análisis, marco y estudio de caso

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido