QuickLAP: Aprendizaje rápido de preferencias de lenguaje y acción para agentes de conducción autónoma

Resumen: Los robots deben aprender tanto de lo que las personas hacen como de lo que dicen, pero cualquiera de las dos modalidades por sí sola suele ser incompleta: las correcciones físicas están fundamentadas pero tienen una intención ambigua, mientras que el lenguaje expresa objetivos de alto nivel pero carece de base física. Presentamos QuickLAP: aprendizaje rápido de preferencias de acción y lenguaje, un marco bayesiano que fusiona retroalimentación física y lingüística para inferir funciones de recompensa en tiempo real. Nuestra idea clave es tratar el lenguaje como una observación probabilística sobre las preferencias latentes del usuario, aclarando qué características de recompensa importan y cómo se deben interpretar las correcciones físicas. QuickLAP utiliza modelos de lenguaje grandes (LLM) para extraer máscaras de atención de características de recompensa y cambios de preferencia de expresiones de formato libre, que integra con retroalimentación física en una regla de actualización de formato cerrado. Esto permite un aprendizaje de recompensas sólido, rápido y en tiempo real que maneja comentarios ambiguos. En un simulador de conducción semiautónomo, QuickLAP reduce el error de aprendizaje de recompensas en más de un 70 % en comparación con las bases multimodales heurísticas y exclusivamente físicas. Un estudio de usuarios con 15 participantes valida aún más nuestro enfoque: los participantes encontraron QuickLAP significativamente más comprensible y colaborativo, y prefirieron su comportamiento aprendido a las líneas de base. El código está disponible en esta URL https.

Publicado originalmente en export.arxiv.org el 25 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El helado no causa ahogamiento: Benchmarking LLMS contra trampas estadísticas en inferencia causal

Syndelay: un conjunto de datos sintético para la predicción del retraso de entrega

Generación de topología de redes de comunicación encubierta UAV: un enfoque de difusión gráfica con mecanismo de incentivos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido