Resumen: a medida que los agentes del Modelo de Lengua grande (LLM) se vuelven más generalizados, aumentan los riesgos de desalineación asociados. El trabajo previo ha examinado la capacidad de los agentes para promulgar el comportamiento desalineado (capacidad de desalineación) y su cumplimiento de las instrucciones dañinas (propensión a uso indebido). Sin embargo, la probabilidad de que los agentes intenten comportamientos desalineados en entornos del mundo real (propensión a la desalineación) sigue siendo poco conocida. Introducimos un punto de referencia de propensión a la desalineación, la moderno de agente, que consiste en un conjunto de escenarios realistas en los que los agentes de LLM tienen la oportunidad de mostrar un comportamiento desalineado. Organizamos nuestras evaluaciones en subcategorías de comportamientos desalineados, que incluyen guardia de objetivos, resistencia al cierre, saco de arena y búsqueda de energía. Reportamos el rendimiento de los modelos fronterizos en nuestro punto de referencia, observando una desalineación más alta en promedio al evaluar modelos más capaces. Finalmente, variamos sistemáticamente las personalidades de los agentes a través de diferentes indicaciones del sistema. Encontramos que las características de la persona pueden influir dramáticamente e impredeciblemente en las tendencias de desalineación, ocasionalmente mucho más que la elección del modelo en sí, destacando la importancia de la ingeniería impulsada del sistema cuidadoso para los agentes de IA desplegados. Nuestro trabajo destaca la falla de los métodos de alineación actuales para generalizar a los agentes de LLM, y subraya la necesidad de evaluaciones de propensión adicionales a medida que los sistemas autónomos se vuelven más frecuentes.

Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original

AGENTMISALINGMENT: Medir la propensión al comportamiento desalineado en agentes basados en LLM

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: cómo la IA podría mejorar la seguridad del sitio de construcción y nuestra conversación de mesas redondas con Karen Hao

Utilización de IA para la clasificación de análisis de aviación posterior al accidente

Desde la generación de imágenes hasta el diseño de infraestructura: una tubería de múltiples agentes para la generación de diseño de calles

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido