Porque tenemos LLM, podemos y debemos perseguir la interpretabilidad de los agentes

Resumen: La era de los modelos de lenguaje grande (LLMS) presenta una nueva oportunidad para la interpretabilidad: la interpretabilidad agénica: una conversación de múltiples vueltas con una LLM en la que la LLM ayuda proactivamente a la comprensión humana al desarrollar y aprovechar un modelo mental del usuario, lo que a su vez permite a los humanos desarrollar mejores modelos mentales de la LLM. Dicha conversación es una nueva capacidad que no usan los métodos tradicionales de interpretabilidad ‘inspectiva’ (abrir la caja negra). Tener un modelo de idioma que tenga como objetivo enseñar y explicar, sin saber cómo hablar, es similar a un maestro cuyo objetivo es enseñar bien, entendiendo que su éxito se medirá por la comprensión del alumno. Si bien la interpretabilidad del agente puede intercambiar la integridad de la interactividad, lo que lo hace menos adecuado para situaciones de seguridad de alto riesgo con modelos potencialmente engañosos, aprovecha un modelo cooperativo para descubrir conceptos potencialmente sobrehumanos que pueden mejorar el modelo mental de máquinas de los humanos. La interpretabilidad agente introduce desafíos, particularmente en la evaluación, debido a lo que llamamos la naturaleza de “entradas humanas en el circuito” (las respuestas humanas son parte integral del algoritmo), lo que dificulta el diseño y la evaluación. Discutimos posibles soluciones y objetivos de poder. A medida que los LLM se acercan a la paridad humana en muchas tareas, la promesa de la interpretabilidad del agente es ayudar a los humanos a aprender los conceptos potencialmente sobrehumanos de las LLM, en lugar de vernos caer cada vez más lejos de comprenderlos.

Publicado Originalme en rss.arxiv.org El 16 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Reforzamiento profundo Aprendizaje del jugador xiangqi con búsqueda de árboles de Monte Carlo

Un marco dinámico de juego de Stackelberg para la defensa de AI de Agente contra LLM Jailbreaking

Resolver Pasur usando minimización de arrepentimiento contrafáctico acelerado por GPU

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido