En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->GISTBench: Evaluación de la comprensión del usuario de LLM mediante la verificación de intereses basada en evidencia

GISTBench: Evaluación de la comprensión del usuario de LLM mediante la verificación de intereses basada en evidencia

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Presentamos GISTBench, un punto de referencia para evaluar la capacidad de los modelos de lenguaje grandes (LLM) para comprender a los usuarios a partir de sus historiales de interacción en sistemas de recomendación. A diferencia de los puntos de referencia tradicionales de RecSys que se centran en la precisión de la predicción de elementos, nuestro punto de referencia evalúa qué tan bien los LLM pueden extraer y verificar los intereses de los usuarios a partir de los datos de participación. Proponemos dos familias de métricas novedosas: Fundamentación de intereses (IG), descompuesta en componentes de precisión y recuerdo para penalizar por separado las categorías de intereses alucinados y recompensar la cobertura, y Especificidad de intereses (IS), que evalúa el carácter distintivo de los perfiles de usuario verificados predichos por LLM. Publicamos un conjunto de datos sintéticos construido a partir de interacciones reales de usuarios en una plataforma global de videos de formato corto. Nuestro conjunto de datos contiene señales de participación implícitas y explícitas y descripciones textuales enriquecidas. Validamos la fidelidad de nuestro conjunto de datos frente a encuestas de usuarios y evaluamos ocho LLM abiertos que abarcan entre 7.000 y 120.000 millones de parámetros. Nuestros hallazgos revelan cuellos de botella en el desempeño en los LLM actuales, particularmente su capacidad limitada para contar y atribuir con precisión señales de participación en tipos de interacción heterogéneos.

Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web