Análisis teórico de la información de modelos mundiales en maximizadores de recompensa óptimos.

Resumen: Una cuestión importante en el campo de la IA es hasta qué punto el comportamiento exitoso requiere una representación interna del mundo. En este trabajo, cuantificamos la cantidad de información que proporciona una política óptima sobre el entorno subyacente. Consideramos un Proceso Controlado de Markov (CMP) con $n$ estados y $m$ acciones, suponiendo un proceso previo uniforme en el espacio de posibles dinámicas de transición. Demostramos que observar una política determinista que es óptima para cualquier función de recompensa no constante transmite exactamente $n log m$ bits de información sobre el medio ambiente. Específicamente, mostramos que la información mutua entre el entorno y la política óptima es $n log m$ bits. Este límite se aplica a una amplia clase de objetivos, incluida la maximización de recompensas de horizonte finito, descuento de horizonte infinito y promediada en el tiempo. Estos hallazgos proporcionan un límite inferior teórico de la información preciso en el “modelo mundial implícito” necesario para la optimización.

Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Descubrimiento de habilidades automatizadas para los agentes del idioma a través de la exploración y la retroalimentación iterativa

La demanda de electricidad de Google se está disparando

LF Decentralized Trust anuncia seis nuevos miembros, Programa de proveedores de servicios certificados ampliados

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido