Resumen: A medida que se implementan grandes modelos de lenguaje (LLM) en configuraciones críticas de seguridad, es esencial garantizar que sus respuestas cumplan con los estándares de seguridad.
Leer más →
Resumen: Recientemente, la IA de agente se ha convertido en un campo de investigación cada vez más popular. Sin embargo, argumentamos que las prácticas actuales de investigación de agentes carecen de estandarización y rigor científico, lo que dificulta realizar comparaciones justas entre los métodos.
Leer más →
Resumen: A medida que los modelos de idiomas grandes (LLM) se implementan cada vez más como agentes autónomos en entornos de horizonte complejos y largos, es fundamental evaluar su capacidad para sabotear a los usuarios al buscar objetivos ocultos. Estudiamos la capacidad de Frontier LLM para evadir el monitoreo y lograr objetivos ocultos nocivos al completar una amplia gama de tareas realistas.
Leer más →