Bots de puente: de la percepción a la acción a través de LMS multimodal y gráficos de conocimiento

Resumen: Los robots de servicio personal se implementan para apoyar la vida diaria en entornos nacionales, particularmente para ancianos y personas que requieren ayuda. Estos robots deben percibir un entorno complejo y dinámico, comprender las tareas y ejecutar acciones apropiadas para el contexto. Sin embargo, los sistemas actuales se basan en soluciones propietarias y codificadas vinculadas a hardware y software específicos, lo que resulta en implementaciones aisladas que son difíciles de adaptar y escalar en todas las plataformas. Las ontologías y los gráficos de conocimiento (KGS) ofrecen una solución para permitir la interoperabilidad entre los sistemas, a través de representaciones estructuradas y estandarizadas de conocimiento y razonamiento. Sin embargo, los sistemas simbólicos como KG y ontologías luchan con la entrada sensorial cruda y ruidosa. Por el contrario, los modelos de lenguaje multimodal son muy adecuados para interpretar la entrada, como las imágenes y el lenguaje natural, pero a menudo carecen de transparencia, consistencia y base de conocimiento. En este trabajo, proponemos un marco neurosimbólico que combina las fuerzas perceptivas de los modelos de lenguaje multimodal con las representaciones estructuradas proporcionadas por KG y ontologías, con el objetivo de apoyar la interoperabilidad en aplicaciones robóticas. Nuestro enfoque genera KGS compatibles con la ontología que pueden informar el comportamiento del robot de una manera independiente de la plataforma. Evaluamos este marco integrando datos de percepción de robots, ontologías y cinco modelos multimodales (tres modelos LLAMA y dos GPT), utilizando diferentes modos de interacción neural-simbólica. Evaluamos la consistencia y efectividad de los KG generados en múltiples ejecuciones y configuraciones, y realizamos análisis estadísticos para evaluar el rendimiento. Los resultados muestran que GPT-O1 y Llama 4 Maverick superan constantemente a otros modelos. Sin embargo, nuestros hallazgos también indican que los modelos más nuevos no garantizan mejores resultados, destacando el papel crítico de la estrategia de integración en la generación de KG que cumplen con la ontología.

Publicado Originalme en export.arxiv.org El 14 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El problema con la tecnología de eliminación de carbono favorita de las grandes empresas tecnológicas

El estado de la IA: la energía es la reina y Estados Unidos se está quedando atrás

COMPASS: Mejora del razonamiento a largo plazo de los agentes con un contexto en evolución

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido