Perfil de riesgos y modulación para LLMS

Resumen: Los modelos de lenguaje grande (LLM) se utilizan cada vez más para tareas de toma de decisiones bajo incertidumbre; Sin embargo, sus perfiles de riesgo y cómo están influenciados por los métodos de incorporación y alineación permanecen subexplorados. Los estudios existentes han examinado principalmente las interacciones de la personalidad o las interacciones de múltiples agentes, dejando abierta la cuestión de cómo la capacitación influye en el comportamiento de riesgo de las LLM. En este trabajo, proponemos una nueva tubería para obtener, dirigir y modular los perfiles de riesgo de LLMS, aprovechando las herramientas de la economía y las finanzas del comportamiento. Utilizando modelos teóricos de utilidad, comparamos LLM previamente capacitados, ajustados por instrucciones y alineados con RLHF, y encontramos que mientras que los modelos ajustados a las instrucciones exhiben comportamientos consistentes con algunas formulaciones de utilidad estándar, modelos previamente capacitados y alineados con RLHF se desvían más de cualquier modelos de utilidad ajustados. Además, evaluamos estrategias de modulación, incluida la ingeniería rápida, el aprendizaje en contexto y el post-entrenamiento, y mostramos que el post-entrenamiento proporciona la modulación más estable y efectiva de la preferencia de riesgo. Nuestros hallazgos proporcionan información sobre los perfiles de riesgo de diferentes clases y etapas de LLMS y demuestran cómo el post-entrenamiento modula estos perfiles, estableciendo las bases para futuras investigaciones sobre la alineación del comportamiento y el diseño de LLM consciente del riesgo.

Publicado Originalme en export.arxiv.org El 29 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

No hay vacantes

AI de Agentic: AI de próxima generación que funciona de manera autónoma

Donde los agentes de LLM fallan y cómo pueden aprender de los fracasos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido