En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->OVOD-Agent: un marco de Markov-Bandit para el razonamiento visual proactivo y la detección de autoevolución

OVOD-Agent: un marco de Markov-Bandit para el razonamiento visual proactivo y la detección de autoevolución

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La detección de objetos de vocabulario abierto (OVOD) tiene como objetivo permitir a los detectores generalizar entre categorías aprovechando la información semántica. Aunque los métodos existentes están previamente entrenados en grandes conjuntos de datos de visión y lenguaje, su inferencia aún se limita a nombres de categorías fijas, lo que crea una brecha entre el entrenamiento multimodal y la inferencia unimodal. Trabajos anteriores han demostrado que mejorar la representación textual puede mejorar significativamente el rendimiento de OVOD, lo que indica que el espacio textual aún está poco explorado. Con este fin, proponemos OVOD-Agent, que transforma la coincidencia de categorías pasiva en razonamiento visual proactivo y detección autoevolutiva. Inspirado en el paradigma Chain-of-Thought (CoT), OVOD-Agent extiende el proceso de optimización textual a un Visual-CoT interpretable con acciones explícitas. La naturaleza liviana de OVOD hace que la gestión basada en LLM no sea adecuada; en cambio, modelamos las transiciones de contexto visual como un proceso de decisión débilmente markoviano (w-MDP) en ocho espacios de estado, que representan naturalmente el estado, la memoria y la dinámica de interacción del agente. Un módulo Bandit genera señales de exploración bajo supervisión limitada, lo que ayuda al agente a centrarse en regiones inciertas y adaptar su política de detección. Integramos aún más matrices de transición de Markov con trayectorias de Bandit para la optimización autosupervisada del modelo de recompensa (RM), formando un circuito cerrado desde la exploración de Bandit hasta el aprendizaje de RM. Los experimentos en COCO y LVIS muestran que OVOD-Agent proporciona mejoras consistentes en todas las redes troncales de OVOD, particularmente en categorías raras, lo que confirma la efectividad del marco propuesto.

Publicado originalmente en export.arxiv.org el 26 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web