Resumen: Los agentes en el mundo real deben emitir juicios no sólo lógicos sino también oportunos. Esto requiere una conciencia continua del entorno dinámico: surgen peligros, surgen oportunidades y otros agentes actúan, mientras el razonamiento del agente aún se está desarrollando.
Leer más →
Resumen: La evaluación de modelos de lenguajes grandes (LLM) es crucial tanto para evaluar sus capacidades como para identificar problemas de seguridad o solidez antes de su implementación.
Leer más →
Resumen: Adoptamos un protocolo de evaluación de doble vía que refleja la implementación: (i) ablaciones A/B en línea a gran escala para aislar la utilidad de cada fuente de retroalimentación, y (ii) pruebas fuera de línea de pocas tomas en puntos de referencia de conocimiento intensivo.
Leer más →