GISTBench: Evaluación de la comprensión del usuario de LLM mediante la verificación de intereses basada en evidencia

Resumen:Presentamos GISTBench, un punto de referencia para evaluar la capacidad de los modelos de lenguaje grandes (LLM) para comprender a los usuarios a partir de sus historiales de interacción en sistemas de recomendación.

Leer más →

Comentarios desactivados en GISTBench: Evaluación de la comprensión del usuario de LLM mediante la verificación de intereses basada en evidencia

PAR$^2$-RAG: Recuperación activa planificada y razonamiento para responder preguntas de múltiples saltos

Resumen: Los modelos de lenguaje grande (LLM) siguen siendo frágiles en la respuesta a preguntas de múltiples saltos (MHQA), donde la respuesta requiere combinar evidencia entre documentos mediante la recuperación y el razonamiento.

Leer más →

Comentarios desactivados en PAR$^2$-RAG: Recuperación activa planificada y razonamiento para responder preguntas de múltiples saltos

El futuro de la IA son muchos, no uno

Resumen: La forma en que pensamos sobre la IA generativa en este momento es fundamentalmente individual. Vemos esto no sólo en cómo los usuarios interactúan con los modelos, sino también en cómo se construyen los modelos, cómo se comparan y cómo se definen las estrategias comerciales y de investigación que utilizan la IA.

Leer más →

Comentarios desactivados en El futuro de la IA son muchos, no uno

Fin del contenido

No hay más páginas por cargar