En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->PathCot: incorporación de la cadena de pensamiento para el razonamiento visual de patología cero-disparo

PathCot: incorporación de la cadena de pensamiento para el razonamiento visual de patología cero-disparo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Con el desarrollo de técnicas generativas de ajuste de inteligencia artificial y instrucciones, los modelos multimodales de lenguaje grande (MLLM) han hecho un progreso impresionante en las tareas generales de razonamiento. En beneficio de la metodología de la cadena de pensamiento (COT), MLLMS puede resolver el problema de razonamiento visual paso a paso. Sin embargo, los MLLM existentes aún enfrentan desafíos significativos cuando se aplican a las tareas de razonamiento visual de patología: (1) Los LLM a menudo tienen un rendimiento inferior porque carecen de información específica del dominio, lo que puede conducir a alucinaciones modelo. (2) Los pasos de razonamiento adicionales en COT pueden introducir errores, lo que lleva a la divergencia de las respuestas. Para abordar estas limitaciones, proponemos PATHCOT, un nuevo método de solicitación de cot de disparo cero que integra el conocimiento experto en patología en el proceso de razonamiento de MLLM e incorpora la autoevaluación para mitigar la divergencia de las respuestas. Específicamente, PathCot guía el MLLM con conocimiento previo para realizar como expertos en patología, y proporciona un análisis integral de la imagen con su conocimiento específico de dominio. Al incorporar el conocimiento de los expertos, PathCot puede obtener las respuestas con el razonamiento de COT. Además, PathCot incorpora un paso de autoevaluación que evalúa tanto los resultados generados directamente por los MLLM como los derivados de la cuna, lo que finalmente determina la respuesta confiable. Los resultados experimentales en el conjunto de datos PathMMU demuestran la efectividad de nuestro método en la comprensión visual de la patología y el razonamiento.

Publicado Originalme en export.arxiv.org El 2 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web