Jugando con el juez: una cadena de pensamiento infiel puede socavar la evaluación del agente

Resumen: Los modelos de lenguaje grande (LLM) se utilizan cada vez más como jueces para evaluar el desempeño de los agentes, particularmente en entornos no verificables donde los juicios se basan en las trayectorias de los agentes, incluido el razonamiento de cadena de pensamiento (CoT). Este paradigma supone implícitamente que la CoT del agente refleja fielmente tanto su razonamiento interno como el estado ambiental subyacente. Mostramos que esta suposición es frágil: los jueces de LLM son altamente susceptibles a la manipulación de las huellas del razonamiento de los agentes. Al reescribir sistemáticamente los CoT de los agentes mientras se mantienen fijas las acciones y observaciones, demostramos que el razonamiento manipulado por sí solo puede inflar las tasas de falsos positivos de los jueces VLM de última generación hasta en un 90% en 800 trayectorias que abarcan diversas tareas web. Estudiamos estrategias de manipulación que abarcan enfoques basados en estilos que alteran sólo la presentación del razonamiento y enfoques basados en contenidos que fabrican señales de progreso de la tarea, y encontramos que las manipulaciones basadas en contenidos son consistentemente más efectivas. Evaluamos técnicas basadas en indicaciones y cálculo de escala del tiempo de juicio, que reducen, pero no eliminan por completo, la susceptibilidad a la manipulación. Nuestros hallazgos revelan una vulnerabilidad fundamental en la evaluación basada en LLM y resaltan la necesidad de mecanismos de evaluación que verifiquen las afirmaciones de razonamiento contra evidencia observable.

Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: Cómo derretir rocas y lo que necesitas saber sobre AI

SYMPHONY: Planificación sinérgica de múltiples agentes con ensamblaje de modelos de lenguaje heterogéneo

En el suelo en el taller de reparación de Starlink más grande de Ucrania

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido