Beneficios del autocontrol de la integración estructural: lecciones de la metacognición en agentes de escala temporal múltiple de tiempo continuo

Resumen: Las capacidades de autocontrol (metacognición, autopredicción y duración subjetiva) a menudo se proponen como adiciones útiles a los agentes de aprendizaje por refuerzo. ¿Pero realmente ayudan? Investigamos esta cuestión en un agente de tiempo continuo y múltiples escalas de tiempo que opera en entornos de supervivencia de depredador-presa de diversa complejidad, incluida una variante 2D parcialmente observable. Primero mostramos que tres módulos de autocontrol, implementados como complementos de pérdida auxiliar a una jerarquía cortical de múltiples escalas de tiempo, no brindan ningún beneficio estadísticamente significativo en 20 semillas aleatorias, entornos depredador-presa 1D y 2D con variantes estándar y no estacionarias, y horizontes de entrenamiento de hasta 50.000 pasos. Al diagnosticar la falla, encontramos que los módulos colapsan a resultados casi constantes (confianza estándar < 0,006, asignación de atención estándar < 0,011) y el mecanismo de duración subjetiva cambia el factor de descuento en menos del 0,03%. El análisis de sensibilidad de las políticas confirma que las decisiones del agente no se ven afectadas por los resultados del módulo en este diseño. Luego mostramos que la integración estructural de los resultados del módulo (usando la confianza para activar la exploración, la sorpresa para desencadenar transmisiones en el espacio de trabajo y las predicciones de automodelo como entrada de políticas) produce una mejora mediana-grande con respecto al enfoque complementario (d de Cohen = 0,62, p = 0,06, emparejado) en un entorno no estacionario. Las ablaciones de componentes revelan que la vía de TSM a la política contribuye con la mayor parte de esta ganancia. Sin embargo, la integración estructural no supera significativamente una línea de base sin autocontrol (d = 0,15, p = 0,67), y un control con parámetros coincidentes sin módulos funciona de manera comparable, por lo que el beneficio puede residir en recuperarse del daño a nivel de tendencia de los módulos ignorados en lugar de en el contenido de autocontrol. La implicación arquitectónica es que el autocontrol debe ubicarse en el camino de la decisión, no al lado de él.

Publicado originalmente en export.arxiv.org el 14 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Qué se necesita para que la IA agente funcione en el comercio minorista

FST.ai 2.0: Un ecosistema de IA explicable para una toma de decisiones justa, rápida e inclusiva en el taekwondo olímpico y paralímpico

Memo-SQL: descomposición estructurada y autocorrección basada en la experiencia para NL2SQL sin capacitación

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido