Resumen: Las habilidades de los agentes son paquetes estructurados de conocimiento procedimental que aumentan los agentes LLM en el momento de la inferencia. A pesar de su rápida adopción, no existe una forma estándar de medir si realmente ayudan. Presentamos SkillsBench, un punto de referencia de 86 tareas en 11 dominios combinado con habilidades seleccionadas y verificadores deterministas.
Leer más →
Resumen: Logic proporciona un banco de pruebas controlado para evaluar razonadores basados en LLM, sin embargo, los puntos de referencia estándar estilo SAT a menudo combinan la dificultad superficial (longitud, redacción, orden de las cláusulas) con los fenómenos estructurales que realmente determinan la satisfacibilidad.
Leer más →
Resumen: Los modelos de lenguajes grandes (LLM) se implementan cada vez más como agentes autónomos para tareas de toma de decisiones de múltiples turnos. Sin embargo, los agentes actuales suelen depender de patrones cognitivos fijos: los modelos no pensantes generan respuestas inmediatas, mientras que los modelos pensantes participan en un razonamiento profundo de manera uniforme.
Leer más →