Hacia una recompensa escalable y verificable: evaluación basada en el estado proxy para agentes LLM que llaman a herramientas de múltiples turnos

Resumen: Los agentes interactivos de modelo de lenguaje grande (LLM) que operan a través de diálogos de múltiples turnos y llamadas de herramientas de múltiples pasos se utilizan cada vez más en producción. Los puntos de referencia para estos agentes deben comparar modelos de manera confiable y generar datos de capacitación sobre políticas.

Leer más →

Comentarios desactivados en Hacia una recompensa escalable y verificable: evaluación basada en el estado proxy para agentes LLM que llaman a herramientas de múltiples turnos

Revolucionando la memoria a largo plazo en IA: nuevos horizontes con almacenamiento de alta capacidad y alta velocidad

Resumen: Impulsado por nuestra misión de “elevar el mundo con memoria”, este artículo explora el concepto de diseño de “memoria” que es esencial para lograr la superinteligencia artificial (ASI).

Leer más →

Comentarios desactivados en Revolucionando la memoria a largo plazo en IA: nuevos horizontes con almacenamiento de alta capacidad y alta velocidad

EnterpriseGym Corecraft: Capacitación de agentes generalizables en entornos RL de alta fidelidad

Resumen: Mostramos que entrenar agentes de IA en entornos de aprendizaje por refuerzo de alta fidelidad produce capacidades que se generalizan más allá de la distribución del entrenamiento. Presentamos corecraft{}, el primer entorno de textsc{EnterpriseGym}, el conjunto de entornos RL agentes de Surge AI.

Leer más →

Comentarios desactivados en EnterpriseGym Corecraft: Capacitación de agentes generalizables en entornos RL de alta fidelidad

Fin del contenido

No hay más páginas por cargar