Resumen: Los modelos de lenguaje grande (LLM) se utilizan cada vez más como jueces para evaluar el desempeño de los agentes, particularmente en entornos no verificables donde los juicios se basan en las trayectorias de los agentes, incluido el razonamiento de cadena de pensamiento (CoT). Este paradigma supone implícitamente que la CoT del agente refleja fielmente tanto su razonamiento interno como el estado ambiental subyacente. Mostramos que esta suposición es frágil: los jueces de LLM son altamente susceptibles a la manipulación de las huellas del razonamiento de los agentes. Al reescribir sistemáticamente los CoT de los agentes mientras se mantienen fijas las acciones y observaciones, demostramos que el razonamiento manipulado por sí solo puede inflar las tasas de falsos positivos de los jueces VLM de última generación hasta en un 90% en 800 trayectorias que abarcan diversas tareas web. Estudiamos estrategias de manipulación que abarcan enfoques basados en estilos que alteran sólo la presentación del razonamiento y enfoques basados en contenidos que fabrican señales de progreso de la tarea, y encontramos que las manipulaciones basadas en contenidos son consistentemente más efectivas. Evaluamos técnicas basadas en indicaciones y cálculo de escala del tiempo de juicio, que reducen, pero no eliminan por completo, la susceptibilidad a la manipulación. Nuestros hallazgos revelan una vulnerabilidad fundamental en la evaluación basada en LLM y resaltan la necesidad de mecanismos de evaluación que verifiquen las afirmaciones de razonamiento contra evidencia observable.
Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original
