Resumen: Las capacidades de autocontrol (metacognición, autopredicción y duración subjetiva) a menudo se proponen como adiciones útiles a los agentes de aprendizaje por refuerzo. ¿Pero realmente ayudan? Investigamos esta cuestión en un agente de tiempo continuo y múltiples escalas de tiempo que opera en entornos de supervivencia de depredador-presa de diversa complejidad, incluida una variante 2D parcialmente observable. Primero mostramos que tres módulos de autocontrol, implementados como complementos de pérdida auxiliar a una jerarquía cortical de múltiples escalas de tiempo, no brindan ningún beneficio estadísticamente significativo en 20 semillas aleatorias, entornos depredador-presa 1D y 2D con variantes estándar y no estacionarias, y horizontes de entrenamiento de hasta 50.000 pasos. Al diagnosticar la falla, encontramos que los módulos colapsan a resultados casi constantes (confianza estándar < 0,006, asignación de atención estándar < 0,011) y el mecanismo de duración subjetiva cambia el factor de descuento en menos del 0,03%. El análisis de sensibilidad de las políticas confirma que las decisiones del agente no se ven afectadas por los resultados del módulo en este diseño. Luego mostramos que la integración estructural de los resultados del módulo (usando la confianza para activar la exploración, la sorpresa para desencadenar transmisiones en el espacio de trabajo y las predicciones de automodelo como entrada de políticas) produce una mejora mediana-grande con respecto al enfoque complementario (d de Cohen = 0,62, p = 0,06, emparejado) en un entorno no estacionario. Las ablaciones de componentes revelan que la vía de TSM a la política contribuye con la mayor parte de esta ganancia. Sin embargo, la integración estructural no supera significativamente una línea de base sin autocontrol (d = 0,15, p = 0,67), y un control con parámetros coincidentes sin módulos funciona de manera comparable, por lo que el beneficio puede residir en recuperarse del daño a nivel de tendencia de los módulos ignorados en lugar de en el contenido de autocontrol. La implicación arquitectónica es que el autocontrol debe ubicarse en el camino de la decisión, no al lado de él.
Publicado originalmente en export.arxiv.org el 14 de abril de 2026.
Ver fuente original
