Resumen: La memoria es fundamental para la interacción social, ya que permite a los humanos recordar experiencias pasadas significativas y adaptar su comportamiento en consecuencia según el contexto. Sin embargo, la mayoría de los robots sociales y agentes encarnados actuales dependen de una memoria no selectiva basada en texto, lo que limita su capacidad para soportar interacciones personalizadas y conscientes del contexto. Inspirándonos en la neurociencia cognitiva, proponemos una arquitectura de memoria multimodal selectiva del contexto para robots sociales que captura y recupera rastros episódicos tanto textuales como visuales, priorizando momentos caracterizados por una alta prominencia emocional o novedad de la escena. Al asociar estos recuerdos con usuarios individuales, nuestro sistema permite un recuerdo socialmente personalizado y un diálogo más natural y fundamentado. Evaluamos el mecanismo de almacenamiento selectivo utilizando un conjunto de datos seleccionados de escenarios sociales, logrando una correlación de Spearman de 0,506, superando la consistencia humana ($rho=0,415$) y superando los modelos de memorabilidad de imágenes existentes. En experimentos de recuperación multimodal, nuestro enfoque de fusión mejora Recall@1 hasta en un 13% con respecto a la recuperación unimodal de texto o imágenes. Las evaluaciones del tiempo de ejecución confirman que el sistema mantiene el rendimiento en tiempo real. Los análisis cualitativos demuestran además que el marco propuesto produce respuestas más ricas y socialmente más relevantes que los modelos de referencia. Este trabajo avanza en el diseño de la memoria para robots sociales al unir la selectividad inspirada en los humanos y la recuperación multimodal para mejorar la interacción personalizada entre humanos y robots a largo plazo.
Publicado originalmente en export.arxiv.org el 14 de abril de 2026.
Ver fuente original
