Resumen:La evaluación comparativa ha servido durante mucho tiempo como una práctica fundamental en el aprendizaje automático y, cada vez más, en los sistemas modernos de inteligencia artificial, como los grandes modelos de lenguaje, donde las tareas, métricas y tablas de clasificación compartidas ofrecen una base común para medir el progreso y comparar enfoques.
Leer más →
Resumen: Los grandes modelos de razonamiento con capacidades de razonamiento logran un rendimiento de vanguardia en tareas complejas, pero su solidez bajo presión adversaria de múltiples turnos sigue sin explorarse. Evaluamos nueve modelos de razonamiento fronterizo bajo ataques adversarios.
Leer más →
Resumen: Los sistemas de inteligencia artificial de frontera son cada vez más capaces y se implementan en entornos multiagente de alto riesgo. Sin embargo, los puntos de referencia de seguridad de la IA existentes evalúan en gran medida a agentes individuales, lo que deja poco comprendidos los riesgos de múltiples agentes, como la falla de coordinación y los conflictos.
Leer más →