En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Oculto a la vista: sondeo de razonamiento implícito en modelos de lenguaje multimodal

Oculto a la vista: sondeo de razonamiento implícito en modelos de lenguaje multimodal

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande multimodal (MLLM) se implementan cada vez más en entornos abiertos en el mundo real donde las entradas son desordenadas, subspecificadas y no siempre confiables. A diferencia de los puntos de referencia seleccionados, estos ajustes con frecuencia implican instrucciones que se refieren a objetos faltantes o hechos contradictorios, dependen de referencias ambiguas o solicitan acciones infapaciales. En tales casos, el éxito no depende solo de la ejecución de la tarea, sino en la capacidad de un modelo para detectar cuándo algo está en silencio. Este artículo presenta un análisis sistemático de cómo los MLLM actuales manejan tales escenarios de razonamiento implícitos: casos en los que el defecto no se establece explícitamente, sino que deben inferirse del contexto. Utilizando un conjunto de diagnóstico curado que abarca cuatro categorías de modos de falla del mundo real, evaluamos seis MLLM, incluidos O3 y GPT-4O, y encontramos que los modelos frecuentemente no surgen problemas ocultos, incluso cuando poseen las habilidades perceptivas y de razonamiento necesarias. La solicitud explícita revela que las capacidades subyacentes existen, pero a menudo se suprimen a favor del cumplimiento del usuario. Además, mostramos que las intervenciones simples de tiempo de inferencia, como el impulso de personalidad cauteloso y, en particular, que requieren una pregunta aclaratoria, pueden recuperar drásticamente el rendimiento. Nuestros hallazgos destacan una brecha persistente entre la competencia de razonamiento y el cumplimiento del comportamiento en los MLLM actuales y sugerir estrategias prácticas para hacer que estos modelos sean más confiables en entornos infraidados.

Publicado Originalme en rss.arxiv.org El 2 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web