Pozos de gravedad semántica: por qué las restricciones negativas resultan contraproducentes

Resumen: Las restricciones negativas (instrucciones de la forma “no usar la palabra X”) representan una prueba fundamental de la capacidad de seguir instrucciones en modelos de lenguaje grandes. A pesar de su aparente simplicidad, estas limitaciones fallan con sorprendente regularidad, y las condiciones que gobiernan el fracaso siguen siendo poco comprendidas. Este artículo presenta la primera investigación mecanicista integral del fracaso en la instrucción negativa. Introducimos la presión semántica, una medida cuantitativa de la probabilidad intrínseca del modelo de generar el token prohibido, y demostramos que la probabilidad de violación sigue una estrecha relación logística con la presión ($p=sigma(-2.40+2.27cdot P_0)$; $n=40{,}000$ muestras; bootstrap $95%$ CI para pendiente: $[2.21,,2.33]$). A través del análisis de capas utilizando la técnica de la lente logit, establecemos que la señal de supresión inducida por instrucciones negativas está presente pero sistemáticamente es más débil en los fracasos: la instrucción reduce la probabilidad del objetivo en sólo 5,2 puntos porcentuales en los fracasos frente a 22,8 puntos en los éxitos: una asimetría de $4,4veces$. Rastreamos esta asimetría a dos modos de falla mecánicamente distintos. En el fracaso del cebado (87,5% de las violaciones), la mención explícita de la palabra prohibida en la instrucción activa paradójicamente, en lugar de suprimir, la representación objetivo. En caso de fallo de anulación (12,5%), las redes de retroalimentación de capa tardía generan contribuciones de $+0,39$ hacia la probabilidad objetivo (casi $4veces$ más que en los éxitos), superando las señales de supresión anteriores. Los parches de activación confirman que las capas 23 a 27 son causalmente responsables: reemplazar las activaciones de estas capas invierte el signo de los efectos de restricción. Estos hallazgos revelan una tensión fundamental en el diseño de restricciones negativas: el mismo acto de nombrar una palabra prohibida prepara al modelo para producirla.

Publicado originalmente en export.arxiv.org el 13 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Sintonizando el futuro de la colaboración

Ahora es un buen momento para cometer delitos.

Apple AirPods: un audífono de puerta de enlace

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido