Modelos de flujo para el aprendizaje de refuerzo de distribución ilimitado y consciente de la geometría

Resumen: Introducimos una nueva arquitectura para el aprendizaje de refuerzo de distribución (Distrl) que modela devolver distribuciones utilizando flujos de normalización. Este enfoque permite un soporte flexible e ilimitado para las distribuciones de retorno, en contraste con enfoques categóricos como C51 que se basan en representaciones fijas o limitadas.

Leer más →

Comentarios desactivados en Modelos de flujo para el aprendizaje de refuerzo de distribución ilimitado y consciente de la geometría

Inferencia probabilística relacional de tiempo polinómico en universos abiertos

Resumen: El razonamiento bajo incertidumbre es un desafío fundamental en la inteligencia artificial. Al igual que con la mayoría de estos desafíos, existe un duro dilema entre el poder expresivo del lenguaje utilizado y la paciencia del problema computacional planteado por el razonamiento.

Leer más →

Comentarios desactivados en Inferencia probabilística relacional de tiempo polinómico en universos abiertos

Un boceto de casos de seguridad de alineación basado en el debate

Resumen: Si los sistemas de IA coinciden o exceden las capacidades humanas en una amplia gama de tareas, puede ser difícil para los humanos juzgar eficientemente sus acciones, lo que dificulta usar la retroalimentación humana para dirigirlos hacia rasgos deseables. Una solución propuesta es aprovechar otro sistema sobrehumano para señalar fallas en las salidas del sistema a través de un debate.

Leer más →

Comentarios desactivados en Un boceto de casos de seguridad de alineación basado en el debate

Fin del contenido

No hay más páginas por cargar