Resumen: Introducimos una nueva arquitectura para el aprendizaje de refuerzo de distribución (Distrl) que modela devolver distribuciones utilizando flujos de normalización. Este enfoque permite un soporte flexible e ilimitado para las distribuciones de retorno, en contraste con enfoques categóricos como C51 que se basan en representaciones fijas o limitadas.
Leer más →
Resumen: Las decisiones de ética de la máquina deben considerar las implicaciones de la incertidumbre sobre las decisiones. Se deben tomar decisiones sobre secuencias de acciones para alcanzar los resultados preferibles a largo plazo. Sin embargo, la evaluación de los resultados puede invocar una o más teorías morales, que podrían tener juicios conflictivos.
Leer más →
Resumen: Este artículo presenta la primera evaluación experimental de cuatro modificaciones previamente no probadas del algoritmo Minimax mejor ilimitado. Este algoritmo explora el árbol del juego expandiendo iterativamente las secuencias de acciones más prometedoras basadas en el árbol de juego parcial actual.
Leer más →