Más allá de las respuestas finales: CRYSTAL Benchmark para una evaluación transparente del razonamiento multimodal

Resumen: Presentamos **CRYSTAL** (*__C__lear __R__easoning via __Y__ielded __S__teps, __T__raceability and __L__ogic*), un punto de referencia de diagnóstico con 6,372 instancias que evalúa el razonamiento multimodal a través de pasos intermedios verificables.

Leer más →

Comentarios desactivados en Más allá de las respuestas finales: CRYSTAL Benchmark para una evaluación transparente del razonamiento multimodal

Destilación estructurada para memoria de agente personalizada: reducción de tokens 11x con preservación de recuperación

Resumen:Las largas conversaciones con un agente de IA crean un problema simple para un usuario: el historial es útil, pero llevarlo palabra por palabra es costoso. Estudiamos la memoria personalizada del agente: el historial de conversaciones de un usuario con un agente, destilado en una capa de recuperación compacta para una búsqueda posterior.

Leer más →

Comentarios desactivados en Destilación estructurada para memoria de agente personalizada: reducción de tokens 11x con preservación de recuperación

Enrutamiento LLM de múltiples agentes eficiente e interpretable mediante la optimización de colonias de hormigas

Resumen: Los sistemas multiagente (MAS) impulsados ​​por modelos de lenguaje grande (LLM) han demostrado una gran capacidad en razonamiento complejo y uso de herramientas, y los grupos de agentes heterogéneos amplían aún más el espacio de compensación entre calidad y costo.

Leer más →

Comentarios desactivados en Enrutamiento LLM de múltiples agentes eficiente e interpretable mediante la optimización de colonias de hormigas

Fin del contenido

No hay más páginas por cargar