GISTBench: Evaluación de la comprensión del usuario de LLM mediante la verificación de intereses basada en evidencia

Resumen:Presentamos GISTBench, un punto de referencia para evaluar la capacidad de los modelos de lenguaje grandes (LLM) para comprender a los usuarios a partir de sus historiales de interacción en sistemas de recomendación. A diferencia de los puntos de referencia tradicionales de RecSys que se centran en la precisión de la predicción de elementos, nuestro punto de referencia evalúa qué tan bien los LLM pueden extraer y verificar los intereses de los usuarios a partir de los datos de participación. Proponemos dos familias de métricas novedosas: Fundamentación de intereses (IG), descompuesta en componentes de precisión y recuerdo para penalizar por separado las categorías de intereses alucinados y recompensar la cobertura, y Especificidad de intereses (IS), que evalúa el carácter distintivo de los perfiles de usuario verificados predichos por LLM. Publicamos un conjunto de datos sintéticos construido a partir de interacciones reales de usuarios en una plataforma global de videos de formato corto. Nuestro conjunto de datos contiene señales de participación implícitas y explícitas y descripciones textuales enriquecidas. Validamos la fidelidad de nuestro conjunto de datos frente a encuestas de usuarios y evaluamos ocho LLM abiertos que abarcan entre 7.000 y 120.000 millones de parámetros. Nuestros hallazgos revelan cuellos de botella en el desempeño en los LLM actuales, particularmente su capacidad limitada para contar y atribuir con precisión señales de participación en tipos de interacción heterogéneos.

Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprender a depurar: árboles de conocimiento organizados por LLM para resolver fallas de aserción RTL

Cómo Yichao “Peak” Ji se convirtió en un creador de éxitos globales de aplicaciones de IA

Diseño de CPU para supercomputación de próxima generación

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido