Resumen:La evaluación actual de los agentes web se reduce en gran medida a métricas binarias de éxito o conformidad con una única trayectoria de referencia, ignorando la diversidad estructural presente en los conjuntos de datos de referencia. Presentamos WebGraphEval, un marco que abstrae trayectorias de múltiples agentes en un gráfico de acción unificado y ponderado.
Leer más →
Resumen: Los modelos de razonamiento han demostrado un rendimiento excepcional en tareas como matemáticas y razonamiento lógico, principalmente debido a su capacidad para pensar paso a paso durante el proceso de razonamiento. Sin embargo, esto a menudo lleva a pensar demasiado, lo que genera una sobrecarga computacional innecesaria.
Leer más →
Resumen: A pesar de la rápida expansión de los modelos de lenguaje grande (LLM) en la atención médica, la capacidad de estos sistemas para evaluar los informes de ensayos clínicos de acuerdo con los estándares CONSORT sigue sin estar clara, particularmente con respecto a sus estrategias cognitivas y de razonamiento.
Leer más →