Resumen: Los avances recientes, como Deepseek-Prover-V2-671B y Kimina-Pres-Preview-72B, demuestran una tendencia predominante para aprovechar el entrenamiento a gran escala basado en el aprendizaje de refuerzo (RL) para la prueba del teorema automatizado.
Leer más →
Resumen: La poda de canales es una técnica poderosa para reducir la sobrecarga computacional de las redes neuronales profundas, lo que permite una implementación eficiente en dispositivos con recursos limitados.
Leer más →
Resumen: En entornos de tráfico mixto, los vehículos autónomos deben adaptarse a los vehículos controlados por humanos y otras situaciones de conducción inusuales. Este entorno se puede enmarcar como un entorno de aprendizaje de refuerzo de múltiples agentes (MARL) con una recompensa cooperativa completa entre los vehículos autónomos.
Leer más →