Resumen: La evaluación confiable de los agentes de IA que operan en entornos complejos del mundo real requiere metodologías que sean sólidas, transparentes y contextualmente alineadas con las tareas que los agentes deben realizar.
Leer más →
Resumen: ¿Cuánta autonomía pueden mantener los sistemas LLM multiagente y qué lo permite? Presentamos un experimento computacional de 25.000 tareas que abarca 8 modelos, 4-256 agentes y 8 protocolos de coordinación que van desde la jerarquía impuesta externamente hasta la autoorganización emergente.
Leer más →
Resumen: Los sistemas actuales de investigación científica autónoma (ASR), a pesar de aprovechar grandes modelos de lenguaje (LLM) y arquitecturas agentes, siguen limitados por flujos de trabajo fijos y conjuntos de herramientas que impiden la adaptación a tareas y entornos en evolución.
Leer más →