En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Bots de puente: de la percepción a la acción a través de LMS multimodal y gráficos de conocimiento

Bots de puente: de la percepción a la acción a través de LMS multimodal y gráficos de conocimiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los robots de servicio personal se implementan para apoyar la vida diaria en entornos nacionales, particularmente para ancianos y personas que requieren ayuda. Estos robots deben percibir un entorno complejo y dinámico, comprender las tareas y ejecutar acciones apropiadas para el contexto. Sin embargo, los sistemas actuales se basan en soluciones propietarias y codificadas vinculadas a hardware y software específicos, lo que resulta en implementaciones aisladas que son difíciles de adaptar y escalar en todas las plataformas. Las ontologías y los gráficos de conocimiento (KGS) ofrecen una solución para permitir la interoperabilidad entre los sistemas, a través de representaciones estructuradas y estandarizadas de conocimiento y razonamiento. Sin embargo, los sistemas simbólicos como KG y ontologías luchan con la entrada sensorial cruda y ruidosa. Por el contrario, los modelos de lenguaje multimodal son muy adecuados para interpretar la entrada, como las imágenes y el lenguaje natural, pero a menudo carecen de transparencia, consistencia y base de conocimiento. En este trabajo, proponemos un marco neurosimbólico que combina las fuerzas perceptivas de los modelos de lenguaje multimodal con las representaciones estructuradas proporcionadas por KG y ontologías, con el objetivo de apoyar la interoperabilidad en aplicaciones robóticas. Nuestro enfoque genera KGS compatibles con la ontología que pueden informar el comportamiento del robot de una manera independiente de la plataforma. Evaluamos este marco integrando datos de percepción de robots, ontologías y cinco modelos multimodales (tres modelos LLAMA y dos GPT), utilizando diferentes modos de interacción neural-simbólica. Evaluamos la consistencia y efectividad de los KG generados en múltiples ejecuciones y configuraciones, y realizamos análisis estadísticos para evaluar el rendimiento. Los resultados muestran que GPT-O1 y Llama 4 Maverick superan constantemente a otros modelos. Sin embargo, nuestros hallazgos también indican que los modelos más nuevos no garantizan mejores resultados, destacando el papel crítico de la estrategia de integración en la generación de KG que cumplen con la ontología.

Publicado Originalme en export.arxiv.org El 14 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web