Una barandilla para la preservación de la seguridad: cuando el subespacio sensible a la seguridad se encuentra con el espacio nulo resistente a los daños

Resumen: Los modelos de lenguajes grandes (LLM) han logrado un éxito notable en diversas tareas, pero su alineación de seguridad sigue siendo frágil durante la adaptación. Incluso cuando se ajustan datos benignos o con una adaptación de bajo rango, los comportamientos de seguridad previamente entrenados se degradan fácilmente, lo que genera respuestas dañinas en los modelos ajustados.

Leer más →

Comentarios desactivados en Una barandilla para la preservación de la seguridad: cuando el subespacio sensible a la seguridad se encuentra con el espacio nulo resistente a los daños

¿Los modelos de lenguaje grandes muestran sesgos en el aprendizaje causal? Perspectivas del juicio de contingencia

Resumen: El aprendizaje causal es el proceso cognitivo de desarrollar la capacidad de hacer inferencias causales basadas en la información disponible, a menudo guiada por principios normativos. Este proceso es propenso a errores y sesgos, como la ilusión de causalidad, en la que las personas perciben una relación causal entre dos variables a pesar de carecer de evidencia que lo respalde.

Leer más →

Comentarios desactivados en ¿Los modelos de lenguaje grandes muestran sesgos en el aprendizaje causal? Perspectivas del juicio de contingencia

Fin del contenido

No hay más páginas por cargar