Poe-World: modelado mundial de composición con productos de expertos programáticos

Resumen: aprender cómo funciona el mundo es fundamental para construir agentes de IA que puedan adaptarse a entornos complejos. Los modelos mundiales tradicionales basados en el aprendizaje profundo exigen grandes cantidades de datos de capacitación, y no actualizan de manera flexible su conocimiento de las observaciones escasas. Los avances recientes en la síntesis del programa utilizando modelos de lenguaje grande (LLM) ofrecen un enfoque alternativo que aprende modelos mundiales representados como código fuente, lo que respalda una fuerte generalización de pequeños datos. Hasta la fecha, la aplicación de modelos mundiales estructurados en el programa sigue limitada al lenguaje natural y los dominios del mundo de la red. Introducimos un método de síntesis de programa novedoso para modelar efectivamente dominios complejos y no del mundo de grideo representando un modelo mundial como un producto ponderado exponencialmente de expertos programáticos (POE-World) sintetizado por LLMS. Mostramos que este enfoque puede aprender modelos mundiales complejos y estocásticos de solo unas pocas observaciones. Evaluamos los modelos mundiales aprendidos integrándolos en un agente de planificación basado en modelos, demostrando un rendimiento y generalización eficientes a niveles invisibles en Pong de Atari y la venganza de Montezuma. Lanzamos nuestro código y mostramos los modelos y videos mundiales aprendidos del juego del agente en esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Dónde hay símbolos en la era de las redes neuronales avanzadas?

Mesas redondas: dentro del imperio de OpenAi con Karen Hao

Trump está presionando a Leucovorin como un nuevo tratamiento para el autismo. ¿Qué es?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido