WebGraphEval: Evaluación de trayectorias de múltiples giros para agentes web mediante representación gráfica

Resumen:La evaluación actual de los agentes web se reduce en gran medida a métricas binarias de éxito o conformidad con una única trayectoria de referencia, ignorando la diversidad estructural presente en los conjuntos de datos de referencia. Presentamos WebGraphEval, un marco que abstrae trayectorias de múltiples agentes en un gráfico de acción unificado y ponderado.

Leer más →

Comentarios desactivados en WebGraphEval: Evaluación de trayectorias de múltiples giros para agentes web mediante representación gráfica

El pensamiento de paso cero: un estudio empírico de la selección de modo como una salida temprana más difícil en los modelos de razonamiento

Resumen: Los modelos de razonamiento han demostrado un rendimiento excepcional en tareas como matemáticas y razonamiento lógico, principalmente debido a su capacidad para pensar paso a paso durante el proceso de razonamiento. Sin embargo, esto a menudo lleva a pensar demasiado, lo que genera una sobrecarga computacional innecesaria.

Leer más →

Comentarios desactivados en El pensamiento de paso cero: un estudio empírico de la selección de modo como una salida temprana más difícil en los modelos de razonamiento

Un análisis multifacético de las habilidades cognitivas: evaluación de métodos rápidos con modelos de lenguaje grandes en la lista de verificación CONSORT

Resumen: A pesar de la rápida expansión de los modelos de lenguaje grande (LLM) en la atención médica, la capacidad de estos sistemas para evaluar los informes de ensayos clínicos de acuerdo con los estándares CONSORT sigue sin estar clara, particularmente con respecto a sus estrategias cognitivas y de razonamiento.

Leer más →

Comentarios desactivados en Un análisis multifacético de las habilidades cognitivas: evaluación de métodos rápidos con modelos de lenguaje grandes en la lista de verificación CONSORT

Fin del contenido

No hay más páginas por cargar