Observatorio de información y Publicaciones | Página 286 de 1329 | Asociación Mexicana del Internet de las Cosas A.C.

SkillsBench: Evaluación comparativa de qué tan bien funcionan las habilidades de los agentes en diversas tareas

Resumen: Las habilidades de los agentes son paquetes estructurados de conocimiento procedimental que aumentan los agentes LLM en el momento de la inferencia. A pesar de su rápida adopción, no existe una forma estándar de medir si realmente ayudan. Presentamos SkillsBench, un punto de referencia de 86 tareas en 11 dominios combinado con habilidades seleccionadas y verificadores deterministas.

Leer más →

Comentarios desactivados

15 febrero, 2026

Noticias externas

Evaluación de la robustez de modelos de razonamiento en problemas lógicos parametrizados

Resumen: Logic proporciona un banco de pruebas controlado para evaluar razonadores basados en LLM, sin embargo, los puntos de referencia estándar estilo SAT a menudo combinan la dificultad superficial (longitud, redacción, orden de las cláusulas) con los fenómenos estructurales que realmente determinan la satisfacibilidad.

Leer más →

Comentarios desactivados

15 febrero, 2026

Noticias externas

Piense rápido y despacio: adaptación de la profundidad cognitiva a nivel gradual para agentes de LLM

Resumen: Los modelos de lenguajes grandes (LLM) se implementan cada vez más como agentes autónomos para tareas de toma de decisiones de múltiples turnos. Sin embargo, los agentes actuales suelen depender de patrones cognitivos fijos: los modelos no pensantes generan respuestas inmediatas, mientras que los modelos pensantes participan en un razonamiento profundo de manera uniforme.

Leer más →

Comentarios desactivados

15 febrero, 2026

SkillsBench: Evaluación comparativa de qué tan bien funcionan las habilidades de los agentes en diversas tareas

Evaluación de la robustez de modelos de razonamiento en problemas lógicos parametrizados

Piense rápido y despacio: adaptación de la profundidad cognitiva a nivel gradual para agentes de LLM

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto