MMTU: un enorme punto de referencia de comprensión y razonamiento de la mesa de tareas múltiples

Resumen: En este trabajo, presentamos MMTU, un punto de referencia a gran escala con más de 30k preguntas en 25 tareas de mesa del mundo real, diseñadas para evaluar de manera integral la capacidad de los modelos para comprender, razonar y manipular tablas reales a nivel experto. Estas tareas se basan en la investigación de informática de décadas sobre datos tabulares, con un enfoque en tareas de tabla complejas que enfrentan los usuarios profesionales. Mostramos que MMTU requiere una combinación de habilidades, incluida la comprensión de la tabla, el razonamiento y la codificación, que siguen siendo desafiantes para los modelos fronterizos de hoy, donde incluso los modelos de razonamiento fronterizo como OpenAI O4-Mini y Deepseek R1 R1 solo alrededor del 60%, lo que sugiere un lugar significativo para la mejora. Destacamos los hallazgos clave en nuestra evaluación utilizando MMTU y esperamos que este punto de referencia impulse más avances en la comprensión y el desarrollo de modelos de base para el procesamiento y análisis de datos estructurados. Nuestro código y datos están disponibles en esta URL HTTPS y esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cómo las políticas de Trump están afectando a los científicos de la carrera temprana, en sus propias palabras

Optimización de la estrategia limitada por entropía en inundaciones urbanas: un marco de múltiples agentes con LLM e integración de gráficos de conocimiento

Sobre admisibilidad fuerte y débil en la argumentación no basada en la suposición

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido