En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Porque tenemos LLM, podemos y debemos perseguir la interpretabilidad de los agentes

Porque tenemos LLM, podemos y debemos perseguir la interpretabilidad de los agentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La era de los modelos de lenguaje grande (LLMS) presenta una nueva oportunidad para la interpretabilidad: la interpretabilidad agénica: una conversación de múltiples vueltas con una LLM en la que la LLM ayuda proactivamente a la comprensión humana al desarrollar y aprovechar un modelo mental del usuario, lo que a su vez permite a los humanos desarrollar mejores modelos mentales de la LLM. Dicha conversación es una nueva capacidad que no usan los métodos tradicionales de interpretabilidad ‘inspectiva’ (abrir la caja negra). Tener un modelo de idioma que tenga como objetivo enseñar y explicar, sin saber cómo hablar, es similar a un maestro cuyo objetivo es enseñar bien, entendiendo que su éxito se medirá por la comprensión del alumno. Si bien la interpretabilidad del agente puede intercambiar la integridad de la interactividad, lo que lo hace menos adecuado para situaciones de seguridad de alto riesgo con modelos potencialmente engañosos, aprovecha un modelo cooperativo para descubrir conceptos potencialmente sobrehumanos que pueden mejorar el modelo mental de máquinas de los humanos. La interpretabilidad agente introduce desafíos, particularmente en la evaluación, debido a lo que llamamos la naturaleza de “entradas humanas en el circuito” (las respuestas humanas son parte integral del algoritmo), lo que dificulta el diseño y la evaluación. Discutimos posibles soluciones y objetivos de poder. A medida que los LLM se acercan a la paridad humana en muchas tareas, la promesa de la interpretabilidad del agente es ayudar a los humanos a aprender los conceptos potencialmente sobrehumanos de las LLM, en lugar de vernos caer cada vez más lejos de comprenderlos.

Publicado Originalme en rss.arxiv.org El 16 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web