Un nuevo artículo de OpenAI lanzado hoy ha demostrado por qué un poco de mal entrenamiento puede hacer que los modelos de IA se vuelvan deshonestos, pero también demuestra que este problema generalmente es bastante fácil de solucionar.
Eso significa que la desalineación emergente podría detectarse y arreglarse, con acceso a los detalles del modelo. Eso podría ser una buena noticia para la seguridad. “Ahora tenemos un método para detectar, tanto en el nivel interno del modelo como a través de evals, cómo podría ocurrir esta desalineación y luego mitigarlo”, dice Patwardhan. “Para mí es algo muy práctico que ahora podemos usar internamente en la capacitación para hacer que los modelos sean más alineados”.
Más allá de la seguridad, algunos piensan que el trabajo en desalineación emergente puede ayudar a la comunidad de la investigación a comprender cómo y por qué los modelos pueden desalinearse en general. “Definitivamente hay más en qué pensar”, dice Anna Soligo, una estudiante de doctorado en el Imperial College London que trabajó un papel Eso apareció la semana pasada en la desalineación emergente. “Tenemos una manera de dirigirnos contra esta desalineación emergente, pero en el entorno donde lo hemos inducido y sabemos cuál es el comportamiento. Esto hace que sea muy fácil de estudiar”.
Soligo y sus colegas se habían centrado en tratar de encontrar y aislar la desalineación en modelos mucho más pequeños (en el rango de 0.5 mil millones de parámetros, mientras que el modelo Evans y sus colegas estudiados en el documento de febrero tenían más de 30 mil millones).
Aunque su trabajo y su OpenAI usaron diferentes herramientas, los resultados de los dos grupos se hacían eco entre sí. Ambos encuentran que la desalineación emergente puede ser inducida por una variedad de mala información (que van desde asesoramiento financiero arriesgado hasta mala salud y asesoramiento para automóviles), y ambos encuentran que esta desalineación puede intensificarse o silenciarse a través de un análisis cuidadoso pero básicamente bastante simple.
Además de las implicaciones de seguridad, los resultados también pueden dar a los investigadores en el campo una idea de cómo comprender mejor los modelos de IA complicados. Soligo, por su parte, ve la forma en que sus resultados convergen con Operai a pesar de la diferencia en sus técnicas como “una actualización bastante prometedora sobre el potencial de interpretabilidad para detectar e intervenir”.
Publicado Originalme en TechnologyReview.com el 18 de junio de 2025.
Ver Fuente Original