En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Los modelos de lenguaje son capaces de monitoreo metacognitivo y control de sus activaciones internas

Los modelos de lenguaje son capaces de monitoreo metacognitivo y control de sus activaciones internas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande (LLM) a veces pueden informar las estrategias que realmente usan para resolver tareas, pero también pueden no hacerlo. Esto sugiere cierto grado de metacognición: la capacidad de monitorear los propios procesos cognitivos para informes posteriores y autocontrol. Las habilidades metacognitivas mejoran las capacidades de IA pero aumentan las preocupaciones de seguridad, ya que los modelos podrían oscurecer sus procesos internos para evadir los mecanismos de supervisión basados ​​en la activación neuronal diseñados para detectar comportamientos dañinos. Dada la mayor dependencia de la sociedad en estos modelos, es fundamental que entendamos los límites de sus habilidades metacognitivas, particularmente su capacidad para monitorear sus activaciones internas. Para abordar esto, presentamos un paradigma de neurofeedback inspirado en la neurociencia diseñado para cuantificar la capacidad de los LLM para informar y controlar explícitamente sus patrones de activación. Al presentar los modelos con pares de etiqueta de oraciones donde las etiquetas corresponden a activaciones internas con oraciones a lo largo de direcciones específicas en el espacio de representación neural, demostramos que los LLM pueden aprender a informar y controlar estas activaciones. El rendimiento varía con varios factores: el número de pares de ejemplo proporcionados, la interpretabilidad semántica de la dirección neuronal objetivo y la varianza explicada por esa dirección. Estos resultados revelan un “espacio metacognitivo” con una dimensionalidad mucho más bajo que el espacio neural del modelo, lo que sugiere que los LLM pueden monitorear solo un subconjunto de sus mecanismos neuronales. Nuestros hallazgos proporcionan evidencia empírica que cuantifica las capacidades metacognitivas en LLM, con implicaciones significativas para la seguridad de la IA.

Publicado Originalme en rss.arxiv.org El 20 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web