El habla interior como guías de comportamiento: imitación orientable de diversos comportamientos para la coordinación entre humanos y IA

Resumen: La coordinación eficaz entre humanos e IA requiere agentes artificiales capaces de exhibir y responder a comportamientos similares a los humanos mientras se adaptan a contextos cambiantes. El aprendizaje por imitación ha surgido como uno de los enfoques destacados para construir dichos agentes entrenándolos para imitar comportamientos demostrados por humanos. Sin embargo, los métodos actuales luchan por capturar la diversidad inherente y la naturaleza no markoviana del comportamiento humano y carecen de la capacidad de dirigir el comportamiento en el momento de la inferencia. Inspirándonos en la teoría de los procesos cognitivos humanos, donde el habla interna guía la selección de acciones antes de su ejecución, proponemos MIMIC (Modelado de motivaciones internas para la imitación y el control), un marco que utiliza el lenguaje como una representación interna de la intención conductual. MIMIC emplea el novedoso uso de modelos visión-lenguaje como andamiaje lingüístico para entrenar un autocodificador variacional condicional capaz de generar habla interna a partir de observaciones. Una política de clonación de comportamiento basada en la difusión selecciona acciones condicionadas a las observaciones actuales y al discurso interno generado. MIMIC permite una dirección detallada del comportamiento en el momento de la inferencia condicionando al agente a un discurso específico del comportamiento. Los experimentos en tareas de manipulación robótica y juegos de colaboración entre humanos e IA demuestran que MIMIC mejora significativamente tanto la diversidad de comportamiento como la fidelidad a las demostraciones humanas, al tiempo que permite una dirección conductual matizada sin capacitación en demostraciones adicionales. Abrimos nuestro código y proporcionamos agentes MIMIC previamente capacitados y demostraciones cualitativas en: esta URL https.

Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un marco XAI reducido por dimensionalidad para la rotonda de la gravedad de la gravedad

MCT bilevel para la selección de nodos amortizadas O (1) en la planificación clásica

Inphyre descubre: los grandes modelos multimodales luchan en el razonamiento físico inductivo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido