Modelos de flujo para el aprendizaje de refuerzo de distribución ilimitado y consciente de la geometría

Resumen: Introducimos una nueva arquitectura para el aprendizaje de refuerzo de distribución (Distrl) que modela devolver distribuciones utilizando flujos de normalización. Este enfoque permite un soporte flexible e ilimitado para las distribuciones de retorno, en contraste con enfoques categóricos como C51 que se basan en representaciones fijas o limitadas.

Leer más →

Comentarios desactivados en Modelos de flujo para el aprendizaje de refuerzo de distribución ilimitado y consciente de la geometría

Planificación de ética de la máquina incierta

Resumen: Las decisiones de ética de la máquina deben considerar las implicaciones de la incertidumbre sobre las decisiones. Se deben tomar decisiones sobre secuencias de acciones para alcanzar los resultados preferibles a largo plazo. Sin embargo, la evaluación de los resultados puede invocar una o más teorías morales, que podrían tener juicios conflictivos.

Leer más →

Comentarios desactivados en Planificación de ética de la máquina incierta

En algunas mejoras a minimax ilimitado

Resumen: Este artículo presenta la primera evaluación experimental de cuatro modificaciones previamente no probadas del algoritmo Minimax mejor ilimitado. Este algoritmo explora el árbol del juego expandiendo iterativamente las secuencias de acciones más prometedoras basadas en el árbol de juego parcial actual.

Leer más →

Comentarios desactivados en En algunas mejoras a minimax ilimitado

Fin del contenido

No hay más páginas por cargar