Xpertbench: Tareas de nivel experto con evaluación basada en rúbricas

Resumen:A medida que los modelos de lenguaje grande (LLM) exhiben un rendimiento estancado en los puntos de referencia convencionales, persiste un desafío fundamental: evaluar su competencia en tareas complejas y abiertas que caracterizan la cognición genuina a nivel de experto.

Leer más →

Comentarios desactivados en Xpertbench: Tareas de nivel experto con evaluación basada en rúbricas

Alinear el progreso y la viabilidad: un marco de memoria dual neurosimbólica para agentes de LLM de horizonte a largo plazo

Resumen: Los modelos de lenguajes grandes (LLM) han demostrado un gran potencial en tareas de toma de decisiones a largo plazo, como la manipulación encarnada y la interacción web. Sin embargo, los agentes frecuentemente luchan con interminables ciclos de prueba y error o se desvían del objetivo principal en entornos complejos.

Leer más →

Comentarios desactivados en Alinear el progreso y la viabilidad: un marco de memoria dual neurosimbólica para agentes de LLM de horizonte a largo plazo

Holos: un sistema multiagente basado en LLM a escala web para la web agente

Resumen: A medida que los agentes impulsados ​​por modelos de lenguaje grande (LLM) pasan de solucionadores de tareas aislados a entidades digitales persistentes, el surgimiento de la Web Agentic, un ecosistema donde agentes heterogéneos interactúan y coevolucionan de forma autónoma, marca un cambio fundamental hacia la Inteligencia General Artificial (AGI).

Leer más →

Comentarios desactivados en Holos: un sistema multiagente basado en LLM a escala web para la web agente

Fin del contenido

No hay más páginas por cargar