Resumen: Recientemente se han propuesto modelos de lenguaje grandes como herramientas para la calificación automatizada de ensayos, pero su concordancia con la calificación humana aún no está clara.
Leer más →
Resumen:Estudiamos la planificación a largo plazo en entornos 3D a partir de objetivos de lenguaje natural poco especificados utilizando únicamente observaciones visuales, centrándonos en tareas de reordenamiento de cajas 3D de varios pasos.
Leer más →
Resumen:Presentamos GTO Wizard Benchmark, una API pública y un marco de evaluación estandarizado para algoritmos de evaluación comparativa en Heads-Up No-Limit Texas Hold’em (HUNL).
Leer más →