Resumen: Los modelos de lenguaje grande multimodal (MLLM) se implementan cada vez más en entornos abiertos en el mundo real donde las entradas son desordenadas, subspecificadas y no siempre confiables. A diferencia de los puntos de referencia seleccionados, estos ajustes con frecuencia implican instrucciones que se refieren a objetos faltantes o hechos contradictorios, dependen de referencias ambiguas o solicitan acciones infapaciales. En tales casos, el éxito no depende solo de la ejecución de la tarea, sino en la capacidad de un modelo para detectar cuándo algo está en silencio. Este artículo presenta un análisis sistemático de cómo los MLLM actuales manejan tales escenarios de razonamiento implícitos: casos en los que el defecto no se establece explícitamente, sino que deben inferirse del contexto. Utilizando un conjunto de diagnóstico curado que abarca cuatro categorías de modos de falla del mundo real, evaluamos seis MLLM, incluidos O3 y GPT-4O, y encontramos que los modelos frecuentemente no surgen problemas ocultos, incluso cuando poseen las habilidades perceptivas y de razonamiento necesarias. La solicitud explícita revela que las capacidades subyacentes existen, pero a menudo se suprimen a favor del cumplimiento del usuario. Además, mostramos que las intervenciones simples de tiempo de inferencia, como el impulso de personalidad cauteloso y, en particular, que requieren una pregunta aclaratoria, pueden recuperar drásticamente el rendimiento. Nuestros hallazgos destacan una brecha persistente entre la competencia de razonamiento y el cumplimiento del comportamiento en los MLLM actuales y sugerir estrategias prácticas para hacer que estos modelos sean más confiables en entornos infraidados.

Publicado Originalme en rss.arxiv.org El 2 de junio de 2025.
Ver Fuente Original

Oculto a la vista: sondeo de razonamiento implícito en modelos de lenguaje multimodal

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Smart Connectivity Test Beds Uso de DIHS

Sesión de información en línea de pre-acelerador del Consejo de Innovación Europea (EIC)

Branch-and-Browse: exploración web eficiente y controlable con razonamiento estructurado en árbol y memoria de acción

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido