Resumen: Los robots deben aprender tanto de lo que las personas hacen como de lo que dicen, pero cualquiera de las dos modalidades por sí sola suele ser incompleta: las correcciones físicas están fundamentadas pero tienen una intención ambigua, mientras que el lenguaje expresa objetivos de alto nivel pero carece de base física. Presentamos QuickLAP: aprendizaje rápido de preferencias de acción y lenguaje, un marco bayesiano que fusiona retroalimentación física y lingüística para inferir funciones de recompensa en tiempo real. Nuestra idea clave es tratar el lenguaje como una observación probabilística sobre las preferencias latentes del usuario, aclarando qué características de recompensa importan y cómo se deben interpretar las correcciones físicas. QuickLAP utiliza modelos de lenguaje grandes (LLM) para extraer máscaras de atención de características de recompensa y cambios de preferencia de expresiones de formato libre, que integra con retroalimentación física en una regla de actualización de formato cerrado. Esto permite un aprendizaje de recompensas sólido, rápido y en tiempo real que maneja comentarios ambiguos. En un simulador de conducción semiautónomo, QuickLAP reduce el error de aprendizaje de recompensas en más de un 70 % en comparación con las bases multimodales heurísticas y exclusivamente físicas. Un estudio de usuarios con 15 participantes valida aún más nuestro enfoque: los participantes encontraron QuickLAP significativamente más comprensible y colaborativo, y prefirieron su comportamiento aprendido a las líneas de base. El código está disponible en esta URL https.
Publicado originalmente en export.arxiv.org el 25 de noviembre de 2025.
Ver fuente original
