Medición y alineación de la abstracción en modelos de visión y lenguaje con taxonomías médicas

Resumen: Los modelos de visión y lenguaje muestran un sólido rendimiento de disparo cero para la clasificación de radiografías de tórax, pero las métricas planas estándar no logran distinguir entre errores clínicamente menores y graves. Este trabajo investiga cómo cuantificar y mitigar los errores de abstracción aprovechando las taxonomías médicas.

Leer más →

Comentarios desactivados en Medición y alineación de la abstracción en modelos de visión y lenguaje con taxonomías médicas

VisTIRA: cerrar la brecha de modalidad imagen-texto en el razonamiento matemático visual mediante la integración de herramientas estructuradas

Resumen: Los modelos de lenguaje visual (VLM) van a la zaga de los modelos de lenguaje de solo texto en razonamiento matemático cuando los mismos problemas se presentan como imágenes en lugar de texto.

Leer más →

Comentarios desactivados en VisTIRA: cerrar la brecha de modalidad imagen-texto en el razonamiento matemático visual mediante la integración de herramientas estructuradas

Fin del contenido

No hay más páginas por cargar