OVOD-Agent: un marco de Markov-Bandit para el razonamiento visual proactivo y la detección de autoevolución

Resumen: La detección de objetos de vocabulario abierto (OVOD) tiene como objetivo permitir a los detectores generalizar entre categorías aprovechando la información semántica. Aunque los métodos existentes están previamente entrenados en grandes conjuntos de datos de visión y lenguaje, su inferencia aún se limita a nombres de categorías fijas, lo que crea una brecha entre el entrenamiento multimodal y la inferencia unimodal. Trabajos anteriores han demostrado que mejorar la representación textual puede mejorar significativamente el rendimiento de OVOD, lo que indica que el espacio textual aún está poco explorado. Con este fin, proponemos OVOD-Agent, que transforma la coincidencia de categorías pasiva en razonamiento visual proactivo y detección autoevolutiva. Inspirado en el paradigma Chain-of-Thought (CoT), OVOD-Agent extiende el proceso de optimización textual a un Visual-CoT interpretable con acciones explícitas. La naturaleza liviana de OVOD hace que la gestión basada en LLM no sea adecuada; en cambio, modelamos las transiciones de contexto visual como un proceso de decisión débilmente markoviano (w-MDP) en ocho espacios de estado, que representan naturalmente el estado, la memoria y la dinámica de interacción del agente. Un módulo Bandit genera señales de exploración bajo supervisión limitada, lo que ayuda al agente a centrarse en regiones inciertas y adaptar su política de detección. Integramos aún más matrices de transición de Markov con trayectorias de Bandit para la optimización autosupervisada del modelo de recompensa (RM), formando un circuito cerrado desde la exploración de Bandit hasta el aprendizaje de RM. Los experimentos en COCO y LVIS muestran que OVOD-Agent proporciona mejoras consistentes en todas las redes troncales de OVOD, particularmente en categorías raras, lo que confirma la efectividad del marco propuesto.

Publicado originalmente en export.arxiv.org el 26 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Más allá de la información errónea: un marco conceptual para estudiar alucinaciones de IA en la comunicación (ciencia)

Avanzando en el conocimiento del enrutamiento en los circuitos integrados analógicos

Hacia una IA jurídica confiable a través de agentes LLM y razonamiento formal

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido