PathCot: incorporación de la cadena de pensamiento para el razonamiento visual de patología cero-disparo

Resumen: Con el desarrollo de técnicas generativas de ajuste de inteligencia artificial y instrucciones, los modelos multimodales de lenguaje grande (MLLM) han hecho un progreso impresionante en las tareas generales de razonamiento. En beneficio de la metodología de la cadena de pensamiento (COT), MLLMS puede resolver el problema de razonamiento visual paso a paso. Sin embargo, los MLLM existentes aún enfrentan desafíos significativos cuando se aplican a las tareas de razonamiento visual de patología: (1) Los LLM a menudo tienen un rendimiento inferior porque carecen de información específica del dominio, lo que puede conducir a alucinaciones modelo. (2) Los pasos de razonamiento adicionales en COT pueden introducir errores, lo que lleva a la divergencia de las respuestas. Para abordar estas limitaciones, proponemos PATHCOT, un nuevo método de solicitación de cot de disparo cero que integra el conocimiento experto en patología en el proceso de razonamiento de MLLM e incorpora la autoevaluación para mitigar la divergencia de las respuestas. Específicamente, PathCot guía el MLLM con conocimiento previo para realizar como expertos en patología, y proporciona un análisis integral de la imagen con su conocimiento específico de dominio. Al incorporar el conocimiento de los expertos, PathCot puede obtener las respuestas con el razonamiento de COT. Además, PathCot incorpora un paso de autoevaluación que evalúa tanto los resultados generados directamente por los MLLM como los derivados de la cuna, lo que finalmente determina la respuesta confiable. Los resultados experimentales en el conjunto de datos PathMMU demuestran la efectividad de nuestro método en la comprensión visual de la patología y el razonamiento.

Publicado Originalme en export.arxiv.org El 2 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Banco WebGen-V: representación estructurada para mejorar el diseño visual en generación y evaluación web basada en LLM

Un marco teórico para la evaluación comparativa adaptativa ponderada por la utilidad

Predicción de la opción de rechazo epistémico

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido