En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Hay valor en el aprendizaje de refuerzo?

¿Hay valor en el aprendizaje de refuerzo?

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los valores de acción juegan un papel central en los modelos de comportamiento de Learing Popular Refply Learing (RL). Sin embargo, la idea de que los valores de acción se representan explícitamente se ha debatido ampliamente. Por lo tanto, los críticos habían sugerido repetidamente que los modelos de gradiente de políticas (PG) deberían ser favorecidos sobre los basados ​​en el valor (VB), como una solución potencial para este dilema. Aquí argumentamos que esta solución es insatisfactoria. Esto se debe a que los métodos PG no son, de hecho, “sin valor”, aunque no confían en una representación explícita del valor para la actuación (mapeo de estímulo-respuesta), lo requieren para aprender. Por lo tanto, cambiar a modelos PG es, per se, insuficiente para eliminar el valor de los modelos de comportamiento. En términos más generales, el requisito de una representación de valor proviene de los supuestos subyacentes con respecto al objetivo de optimización planteado por el marco RL estándar, no del algoritmo particular elegido para resolverlo. Estudios anteriores en su mayoría dieron por sentado estos supuestos RL estándar, como parte de su conceptualización o modelado de problemas, al tiempo que debatieron los diferentes métodos utilizados para optimizarlo (es decir, PG o VB). Proponemos que, en cambio, el enfoque del debate debería cambiar a evaluar críticamente los supuestos de modelado subyacentes. Dicha evaluación es particularmente importante desde una perspectiva experimental. De hecho, la noción misma de valor debe reconsiderarse cuando las suposiciones estándar (por ejemplo, neutralidad de riesgo, observabilidad completa, entorno de Markovian, descuento exponencial) son relajados, como es probable en entornos naturales. Finalmente, utilizamos el debate de valor como un estudio de caso para argumentar a favor de una visión más matizada, algorítmica en lugar de estadística, de lo que constituye “un modelo” en las ciencias cognitivas. Nuestro análisis sugiere que, además de la complejidad estadística “paramétrica”, también deben tenerse en cuenta aspectos adicionales como la complejidad computacional al evaluar la complejidad del modelo.

Publicado Originalme en rss.arxiv.org El 8 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web