Tabla de clasificación holística de agentes: la infraestructura que falta para la evaluación de agentes de IA

Resumen: Los agentes de IA se han desarrollado para tareas complejas del mundo real, desde la codificación hasta el servicio al cliente. Pero las evaluaciones de los agentes de IA adolecen de muchos desafíos que socavan nuestra comprensión de qué tan bien funcionan realmente los agentes. Presentamos la Tabla de clasificación de agentes holísticos (HAL) para abordar estos desafíos.

Leer más →

Comentarios desactivados en Tabla de clasificación holística de agentes: la infraestructura que falta para la evaluación de agentes de IA

MatSciBench: Evaluación comparativa de la capacidad de razonamiento de modelos de lenguaje grandes en ciencia de materiales

Resumen: Los modelos de lenguaje grande (LLM) han demostrado habilidades notables en el razonamiento científico, pero sus capacidades de razonamiento en la ciencia de los materiales siguen sin explorarse.

Leer más →

Comentarios desactivados en MatSciBench: Evaluación comparativa de la capacidad de razonamiento de modelos de lenguaje grandes en ciencia de materiales

Más allá del consenso: mitigar el sesgo de amabilidad en las evaluaciones de jueces de LLM

Resumen:Si bien los métodos basados ​​en conjuntos, como la votación por mayoría, pueden ayudar, demostramos que no son lo suficientemente buenos. Introducimos una estrategia óptima de veto de minorías que es resistente a los datos faltantes y mitiga este sesgo en gran medida.

Leer más →

Comentarios desactivados en Más allá del consenso: mitigar el sesgo de amabilidad en las evaluaciones de jueces de LLM

Fin del contenido

No hay más páginas por cargar