InterMT: alineación de preferencias entrelazadas con múltiples vueltas con retroalimentación humana

Resumen: A medida que los modelos grandes multimodales (MLLM) continúan avanzando en tareas desafiantes, surge una pregunta clave: ¿qué capacidades esenciales aún faltan? Un aspecto crítico del aprendizaje humano es la interacción continua con el medio ambiente, no limitado al lenguaje, pero también implica una comprensión y generación multimodal. Para acercarse a la inteligencia a nivel humano, los modelos deben admitir de manera similar la interacción multimodal múltiple. En particular, deben comprender contextos multimodales entrelazados y responder coherentemente en los intercambios en curso. En este trabajo, presentamos una exploración inicial a través del InterMT, el primer conjunto de datos de preferencia para la interacción multimodal múltiple, basada en la retroalimentación humana real. En esta exploración, enfatizamos particularmente la importancia de la supervisión humana, presentando anotaciones de expertos para guiar el proceso, motivado por el hecho de que los MLLM actuales carecen de capacidades interactivas tan complejas. InterMT captura las preferencias humanas a niveles globales y locales en nueve subdimensiones, consta de 15.6k indicaciones, 52.6k instancias de diálogo múltiple y 32.4k pares de preferencias marcadas por humanos. Para compensar la falta de capacidad para la comprensión y generación multimodal, presentamos un flujo de trabajo de agente que aprovecha los MLLM acuáticos acuáticos para construir instancias de QA múltiples giros. Para promover este objetivo, presentamos InterMT-Bench para evaluar la capacidad de los MLLM para ayudar a los jueces con tareas multimodales de múltiples vueltas. Demostramos la utilidad de intermt a través de aplicaciones como la moderación del juez y revelamos aún más la ley de escala múltiple del modelo de juez. Esperamos que la fuente abierta de nuestros datos pueda ayudar a facilitar más investigaciones sobre la alineación de los MLLM actuales con el siguiente paso. Nuestro sitio web de proyecto se puede encontrar en esta URL HTTPS .

Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Informe técnico del modelo de la Fundación Médica Quarkmed

GenPlanner: Del ruido a los planes: razonamiento emergente en modelos de difusión y coincidencia de flujo

Subsecretario de salud de EE. UU.: las directrices sobre vacunas aún están sujetas a cambios

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido