En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Tenga en cuenta la brecha de datos: la falta todavía da forma a los pronósticos de los modelos de lenguaje grandes

Tenga en cuenta la brecha de datos: la falta todavía da forma a los pronósticos de los modelos de lenguaje grandes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La recopilación de datos a menudo refleja decisiones humanas. En el sector sanitario, por ejemplo, la derivación para una prueba diagnóstica está influenciada por la salud del paciente, sus preferencias, los recursos disponibles y las recomendaciones del médico. A pesar de la extensa literatura sobre el carácter informativo de la falta, no se han estudiado sus implicaciones en el desempeño de los modelos de lenguaje grande (LLM). A través de una serie de experimentos con datos del Centro Médico de la Universidad de Columbia, un gran centro médico académico urbano, y MIMIC-IV, demostramos que los patrones de falta de datos impactan significativamente el rendimiento predictivo de disparo cero. En particular, la inclusión explícita de indicadores de falta en las indicaciones beneficia a algunos mientras perjudica el rendimiento predictivo y la calibración de otros LLM, lo que sugiere un impacto inconsistente. El análisis agregado y los conocimientos teóricos propuestos sugieren que los modelos más grandes se benefician de estas intervenciones, mientras que los modelos más pequeños pueden verse afectados negativamente. El paradigma LLM corre el riesgo de oscurecer aún más el impacto de la falta de información, a menudo ignorada incluso en el ML convencional. Concluimos que existe la necesidad de una contabilidad más transparente y una evaluación sistemática del impacto de la falta de representación (informativa) en el desempeño posterior.

Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web