Oagents: un estudio empírico de la construcción de agentes efectivos

Resumen: Recientemente, la IA de agente se ha convertido en un campo de investigación cada vez más popular. Sin embargo, argumentamos que las prácticas actuales de investigación de agentes carecen de estandarización y rigor científico, lo que dificulta realizar comparaciones justas entre los métodos.

Leer más →

Comentarios desactivados en Oagents: un estudio empírico de la construcción de agentes efectivos

Shade-Arena: Evaluación de sabotaje y monitoreo en agentes de LLM

Resumen: A medida que los modelos de idiomas grandes (LLM) se implementan cada vez más como agentes autónomos en entornos de horizonte complejos y largos, es fundamental evaluar su capacidad para sabotear a los usuarios al buscar objetivos ocultos. Estudiamos la capacidad de Frontier LLM para evadir el monitoreo y lograr objetivos ocultos nocivos al completar una amplia gama de tareas realistas.

Leer más →

Comentarios desactivados en Shade-Arena: Evaluación de sabotaje y monitoreo en agentes de LLM

Fin del contenido

No hay más páginas por cargar