SkillsBench: Evaluación comparativa de qué tan bien funcionan las habilidades de los agentes en diversas tareas

Resumen: Las habilidades de los agentes son paquetes estructurados de conocimiento procedimental que aumentan los agentes LLM en el momento de la inferencia. A pesar de su rápida adopción, no existe una forma estándar de medir si realmente ayudan. Presentamos SkillsBench, un punto de referencia de 86 tareas en 11 dominios combinado con habilidades seleccionadas y verificadores deterministas.

Leer más →

Comentarios desactivados en SkillsBench: Evaluación comparativa de qué tan bien funcionan las habilidades de los agentes en diversas tareas

Evaluación de la robustez de modelos de razonamiento en problemas lógicos parametrizados

Resumen: Logic proporciona un banco de pruebas controlado para evaluar razonadores basados ​​en LLM, sin embargo, los puntos de referencia estándar estilo SAT a menudo combinan la dificultad superficial (longitud, redacción, orden de las cláusulas) con los fenómenos estructurales que realmente determinan la satisfacibilidad.

Leer más →

Comentarios desactivados en Evaluación de la robustez de modelos de razonamiento en problemas lógicos parametrizados

Piense rápido y despacio: adaptación de la profundidad cognitiva a nivel gradual para agentes de LLM

Resumen: Los modelos de lenguajes grandes (LLM) se implementan cada vez más como agentes autónomos para tareas de toma de decisiones de múltiples turnos. Sin embargo, los agentes actuales suelen depender de patrones cognitivos fijos: los modelos no pensantes generan respuestas inmediatas, mientras que los modelos pensantes participan en un razonamiento profundo de manera uniforme.

Leer más →

Comentarios desactivados en Piense rápido y despacio: adaptación de la profundidad cognitiva a nivel gradual para agentes de LLM

Fin del contenido

No hay más páginas por cargar