En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Pozos de gravedad semántica: por qué las restricciones negativas resultan contraproducentes

Pozos de gravedad semántica: por qué las restricciones negativas resultan contraproducentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las restricciones negativas (instrucciones de la forma “no usar la palabra X”) representan una prueba fundamental de la capacidad de seguir instrucciones en modelos de lenguaje grandes. A pesar de su aparente simplicidad, estas limitaciones fallan con sorprendente regularidad, y las condiciones que gobiernan el fracaso siguen siendo poco comprendidas. Este artículo presenta la primera investigación mecanicista integral del fracaso en la instrucción negativa. Introducimos la presión semántica, una medida cuantitativa de la probabilidad intrínseca del modelo de generar el token prohibido, y demostramos que la probabilidad de violación sigue una estrecha relación logística con la presión ($p=sigma(-2.40+2.27cdot P_0)$; $n=40{,}000$ muestras; bootstrap $95%$ CI para pendiente: $[2.21,,2.33]$). A través del análisis de capas utilizando la técnica de la lente logit, establecemos que la señal de supresión inducida por instrucciones negativas está presente pero sistemáticamente es más débil en los fracasos: la instrucción reduce la probabilidad del objetivo en sólo 5,2 puntos porcentuales en los fracasos frente a 22,8 puntos en los éxitos: una asimetría de $4,4veces$. Rastreamos esta asimetría a dos modos de falla mecánicamente distintos. En el fracaso del cebado (87,5% de las violaciones), la mención explícita de la palabra prohibida en la instrucción activa paradójicamente, en lugar de suprimir, la representación objetivo. En caso de fallo de anulación (12,5%), las redes de retroalimentación de capa tardía generan contribuciones de $+0,39$ hacia la probabilidad objetivo (casi $4veces$ más que en los éxitos), superando las señales de supresión anteriores. Los parches de activación confirman que las capas 23 a 27 son causalmente responsables: reemplazar las activaciones de estas capas invierte el signo de los efectos de restricción. Estos hallazgos revelan una tensión fundamental en el diseño de restricciones negativas: el mismo acto de nombrar una palabra prohibida prepara al modelo para producirla.

Publicado originalmente en export.arxiv.org el 13 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web