SI-Agent: un marco de agente para la generación y ajuste de la retroalimentación de instrucciones del sistema legible por humanos para modelos de idiomas grandes

Resumen: las instrucciones del sistema (SIS), o las indicaciones del sistema, son fundamentales para guiar modelos de lenguaje grandes (LLM), pero la elaboración manual es intensiva en recursos y, a menudo, es subóptima. Los métodos automatizados existentes generan frecuentemente “indicaciones suaves” no humanos, sacrificando la interpretabilidad.

Leer más →

Comentarios desactivados en SI-Agent: un marco de agente para la generación y ajuste de la retroalimentación de instrucciones del sistema legible por humanos para modelos de idiomas grandes

Los LLM son capaces de un comportamiento desalineado bajo prohibición y vigilancia explícitas

Resumen: En este documento, los LLM tienen la tarea de completar una cuestionario imposible, mientras están en una caja de arena, monitoreadas, se informan sobre estas medidas e instruyen a no hacer trampa. Algunos LLM de Frontier hacen trampa de manera consistente e intentan eludir las restricciones a pesar de todo.

Leer más →

Comentarios desactivados en Los LLM son capaces de un comportamiento desalineado bajo prohibición y vigilancia explícitas

Fin del contenido

No hay más páginas por cargar