Resumen: Una cuestión importante en el campo de la IA es hasta qué punto el comportamiento exitoso requiere una representación interna del mundo. En este trabajo, cuantificamos la cantidad de información que proporciona una política óptima sobre el entorno subyacente. Consideramos un Proceso Controlado de Markov (CMP) con $n$ estados y $m$ acciones, suponiendo un proceso previo uniforme en el espacio de posibles dinámicas de transición. Demostramos que observar una política determinista que es óptima para cualquier función de recompensa no constante transmite exactamente $n log m$ bits de información sobre el medio ambiente. Específicamente, mostramos que la información mutua entre el entorno y la política óptima es $n log m$ bits. Este límite se aplica a una amplia clase de objetivos, incluida la maximización de recompensas de horizonte finito, descuento de horizonte infinito y promediada en el tiempo. Estos hallazgos proporcionan un límite inferior teórico de la información preciso en el “modelo mundial implícito” necesario para la optimización.
Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original
