Resumen: VerA opera en dos modos complementarios. VeRA-E (equivalente) reescribe problemas manteniendo intacta la lógica subyacente, lo que resulta útil para detectar la memorización frente al razonamiento genuino.
Leer más →
Resumen: No está claro si un desempeño sólido en el pronóstico refleja una comprensión temporal genuina o la capacidad de razonar en condiciones contextuales e impulsadas por eventos. Presentamos TemporalBench, un punto de referencia multidominio diseñado para evaluar el comportamiento de razonamiento temporal en entornos informativos cada vez más ricos.
Leer más →
Resumen: Los transformadores asignan cálculos uniformes a cada posición, independientemente de la dificultad. Los modelos de espacio de estados (SSM) ofrecen alternativas eficientes, pero tienen dificultades para recuperar información precisa a largo plazo.
Leer más →