Sobre la brecha de generalización en la planificación de LLM: pruebas y RL de recompensa por el verificador

Resumen:Trabajos recientes muestran que los modelos de lenguaje grande (LLM) ajustados pueden lograr altas tasas de planificación válidas en tareas de planificación PDDL. Sin embargo, aún no está claro si esto refleja una competencia de planificación transferible o una memorización de un dominio específico. En este trabajo, ajustamos un LLM de 1,7B de parámetros en 40.

Leer más →

Comentarios desactivados en Sobre la brecha de generalización en la planificación de LLM: pruebas y RL de recompensa por el verificador

Medición y alineación de la abstracción en modelos de visión y lenguaje con taxonomías médicas

Resumen: Los modelos de visión y lenguaje muestran un sólido rendimiento de disparo cero para la clasificación de radiografías de tórax, pero las métricas planas estándar no logran distinguir entre errores clínicamente menores y graves. Este trabajo investiga cómo cuantificar y mitigar los errores de abstracción aprovechando las taxonomías médicas.

Leer más →

Comentarios desactivados en Medición y alineación de la abstracción en modelos de visión y lenguaje con taxonomías médicas

Fin del contenido

No hay más páginas por cargar