Hacia una recompensa escalable y verificable: evaluación basada en el estado proxy para agentes LLM que llaman a herramientas de múltiples turnos
Resumen: Los agentes interactivos de modelo de lenguaje grande (LLM) que operan a través de diálogos de múltiples turnos y llamadas de herramientas de múltiples pasos se utilizan cada vez más en producción. Los puntos de referencia para estos agentes deben comparar modelos de manera confiable y generar datos de capacitación sobre políticas.
Leer más →