Resumen: Acelerar la exploración en el aprendizaje por refuerzo visual con recompensas escasas sigue siendo un desafío debido a las variaciones sustanciales que son irrelevantes para la tarea.
Leer más →
Resumen: Las conclusiones de la investigación empírica dependen no sólo de los datos sino de una secuencia de decisiones analíticas que los resultados publicados rara vez hacen explícitos. Estudios anteriores de “muchos analistas” han demostrado esto: equipos independientes que prueban la misma hipótesis en el mismo conjunto de datos regularmente llegan a conclusiones contradictorias.
Leer más →
Resumen: Reinterpretamos el clasificador softmax final del Modelo de lenguaje grande (LLM) como un modelo basado en energía (EBM), descomponiendo la cadena de probabilidad de secuencia a secuencia en múltiples EBM que interactúan en la inferencia.
Leer más →