En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->MMTU: un enorme punto de referencia de comprensión y razonamiento de la mesa de tareas múltiples

MMTU: un enorme punto de referencia de comprensión y razonamiento de la mesa de tareas múltiples

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: En este trabajo, presentamos MMTU, un punto de referencia a gran escala con más de 30k preguntas en 25 tareas de mesa del mundo real, diseñadas para evaluar de manera integral la capacidad de los modelos para comprender, razonar y manipular tablas reales a nivel experto. Estas tareas se basan en la investigación de informática de décadas sobre datos tabulares, con un enfoque en tareas de tabla complejas que enfrentan los usuarios profesionales. Mostramos que MMTU requiere una combinación de habilidades, incluida la comprensión de la tabla, el razonamiento y la codificación, que siguen siendo desafiantes para los modelos fronterizos de hoy, donde incluso los modelos de razonamiento fronterizo como OpenAI O4-Mini y Deepseek R1 R1 solo alrededor del 60%, lo que sugiere un lugar significativo para la mejora. Destacamos los hallazgos clave en nuestra evaluación utilizando MMTU y esperamos que este punto de referencia impulse más avances en la comprensión y el desarrollo de modelos de base para el procesamiento y análisis de datos estructurados. Nuestro código y datos están disponibles en esta URL HTTPS y esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web