En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Tabla de clasificación holística de agentes: la infraestructura que falta para la evaluación de agentes de IA

Tabla de clasificación holística de agentes: la infraestructura que falta para la evaluación de agentes de IA

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes de IA se han desarrollado para tareas complejas del mundo real, desde la codificación hasta el servicio al cliente. Pero las evaluaciones de los agentes de IA adolecen de muchos desafíos que socavan nuestra comprensión de qué tan bien funcionan realmente los agentes. Presentamos la Tabla de clasificación de agentes holísticos (HAL) para abordar estos desafíos. Hacemos tres contribuciones principales. En primer lugar, proporcionamos un arnés de evaluación estandarizado que organiza evaluaciones paralelas en cientos de máquinas virtuales, lo que reduce el tiempo de evaluación de semanas a horas y, al mismo tiempo, elimina errores de implementación comunes. En segundo lugar, realizamos análisis tridimensionales que abarcan modelos, andamios y puntos de referencia. Validamos el arnés realizando implementaciones de 21,730 agentes en 9 modelos y 9 puntos de referencia en codificación, navegación web, ciencia y servicio al cliente con un costo total de aproximadamente $40,000. Nuestro análisis revela ideas sorprendentes, como que un mayor esfuerzo de razonamiento reduce la precisión en la mayoría de las ejecuciones. En tercer lugar, utilizamos la inspección de registros asistida por LLM para descubrir comportamientos no informados anteriormente, como buscar el punto de referencia en HuggingFace en lugar de resolver una tarea, o el uso indebido de tarjetas de crédito en tareas de reserva de vuelos. Compartimos todos los registros de los agentes, que comprenden 2500 millones de tokens de llamadas a modelos de lenguaje, para incentivar una mayor investigación sobre el comportamiento de los agentes. Al estandarizar la forma en que el campo evalúa a los agentes y abordar los errores comunes en la evaluación de agentes, esperamos cambiar el enfoque de los agentes que superan los puntos de referencia a los agentes que trabajan de manera confiable en el mundo real.

Publicado originalmente en export.arxiv.org el 14 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web