Resumen:Presentamos GISTBench, un punto de referencia para evaluar la capacidad de los modelos de lenguaje grandes (LLM) para comprender a los usuarios a partir de sus historiales de interacción en sistemas de recomendación.
Leer más →
Resumen: Los modelos de lenguaje grande (LLM) siguen siendo frágiles en la respuesta a preguntas de múltiples saltos (MHQA), donde la respuesta requiere combinar evidencia entre documentos mediante la recuperación y el razonamiento.
Leer más →
Resumen: La forma en que pensamos sobre la IA generativa en este momento es fundamentalmente individual. Vemos esto no sólo en cómo los usuarios interactúan con los modelos, sino también en cómo se construyen los modelos, cómo se comparan y cómo se definen las estrategias comerciales y de investigación que utilizan la IA.
Leer más →