En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->MLLM-DR: Hacia el reconocimiento de depresión explicable con modelos de lenguaje grande multimodal

MLLM-DR: Hacia el reconocimiento de depresión explicable con modelos de lenguaje grande multimodal

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El diagnóstico de depresión automatizado tiene como objetivo analizar la información multimodal de los videos de entrevistas para predecir los puntajes de depresión de los participantes. Estudios anteriores a menudo carecen de explicaciones claras de cómo se determinaron estos puntajes, lo que limita su adopción en la práctica clínica. Si bien el advenimiento de LLMS proporciona una posible vía para el diagnóstico de depresión explicable, los LLM actuales capaces de procesar los datos multimodales carecen de capacitación en los datos de la entrevista, lo que resulta en un bajo rendimiento de diagnóstico cuando se usa directamente. En este artículo, proponemos un nuevo modelo de lenguaje grande (MLLM-DR) que puede comprender los insumos de información multimodal y admite el diagnóstico de depresión explicable. MLLM-DR integra un LLMS más pequeño y un módulo de consulta liviano (formador LQ). Específicamente, el LLMS más pequeño está diseñado para generar puntajes de depresión y los fundamentos de evaluación correspondientes. Para mejorar su razonamiento lógico para tareas específicas del dominio mientras mantenemos la practicidad, construimos un conjunto de datos de entrenamiento robusto para ajustarlo. Mientras tanto, el formador de LQ captura características relacionadas con la depresión a partir de datos del habla y visual, lo que ayuda la capacidad del modelo para procesar información multimodal, para lograr un diagnóstico integral de depresión. Nuestro enfoque logra resultados de última generación en dos conjuntos de datos de referencia basados ​​en entrevistas, CMDC y E-Daic-Woz, lo que demuestra su efectividad y superioridad.

Publicado Originalme en export.arxiv.org El 8 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web