¿Hay valor en el aprendizaje de refuerzo?

Resumen: Los valores de acción juegan un papel central en los modelos de comportamiento de Learing Popular Refply Learing (RL). Sin embargo, la idea de que los valores de acción se representan explícitamente se ha debatido ampliamente. Por lo tanto, los críticos habían sugerido repetidamente que los modelos de gradiente de políticas (PG) deberían ser favorecidos sobre los basados en el valor (VB), como una solución potencial para este dilema. Aquí argumentamos que esta solución es insatisfactoria. Esto se debe a que los métodos PG no son, de hecho, “sin valor”, aunque no confían en una representación explícita del valor para la actuación (mapeo de estímulo-respuesta), lo requieren para aprender. Por lo tanto, cambiar a modelos PG es, per se, insuficiente para eliminar el valor de los modelos de comportamiento. En términos más generales, el requisito de una representación de valor proviene de los supuestos subyacentes con respecto al objetivo de optimización planteado por el marco RL estándar, no del algoritmo particular elegido para resolverlo. Estudios anteriores en su mayoría dieron por sentado estos supuestos RL estándar, como parte de su conceptualización o modelado de problemas, al tiempo que debatieron los diferentes métodos utilizados para optimizarlo (es decir, PG o VB). Proponemos que, en cambio, el enfoque del debate debería cambiar a evaluar críticamente los supuestos de modelado subyacentes. Dicha evaluación es particularmente importante desde una perspectiva experimental. De hecho, la noción misma de valor debe reconsiderarse cuando las suposiciones estándar (por ejemplo, neutralidad de riesgo, observabilidad completa, entorno de Markovian, descuento exponencial) son relajados, como es probable en entornos naturales. Finalmente, utilizamos el debate de valor como un estudio de caso para argumentar a favor de una visión más matizada, algorítmica en lugar de estadística, de lo que constituye “un modelo” en las ciencias cognitivas. Nuestro análisis sugiere que, además de la complejidad estadística “paramétrica”, también deben tenerse en cuenta aspectos adicionales como la complejidad computacional al evaluar la complejidad del modelo.

Publicado Originalme en rss.arxiv.org El 8 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La silla de Tesla golpea la junta de reclamo “absolutamente falso” busca un nuevo CEO

Mire antes de saltar: un modelo gui-crítico-R1 para el diagnóstico de errores preoperatorios en la automatización de la GUI

Gemelos digitales para IoT – Prt 2 Plataformas y software de gemelos digitales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido