Resumen:Este estudio examina el desempeño de ChatGPT con un experimento en el ámbito legal. Comparamos el resultado con una línea de base utilizando expresiones regulares (Regex), en lugar de centrarnos únicamente en la evaluación del desempeño humano.
Leer más →
Resumen:La evaluación actual de los agentes web se reduce en gran medida a métricas binarias de éxito o conformidad con una única trayectoria de referencia, ignorando la diversidad estructural presente en los conjuntos de datos de referencia. Presentamos WebGraphEval, un marco que abstrae trayectorias de múltiples agentes en un gráfico de acción unificado y ponderado.
Leer más →
Resumen: Los modelos de razonamiento han demostrado un rendimiento excepcional en tareas como matemáticas y razonamiento lógico, principalmente debido a su capacidad para pensar paso a paso durante el proceso de razonamiento. Sin embargo, esto a menudo lleva a pensar demasiado, lo que genera una sobrecarga computacional innecesaria.
Leer más →