Resumen: El progreso reciente en modelos de idiomas grandes (LLM) ha permitido avances sustanciales para resolver problemas matemáticos. Sin embargo, los puntos de referencia existentes a menudo no reflejan la complejidad de los problemas del mundo real, que exigen un razonamiento interdisciplinario abierto e integración de herramientas computacionales. Para abordar esta brecha, presentamos ModelingBench, un nuevo punto de referencia que presenta problemas abiertos y de inspiración en el mundo real de competiciones de modelado matemático en diversos dominios, desde la optimización del tráfico urbano hasta la planificación de los recursos del ecosistema. Estas tareas requieren traducir el lenguaje natural en formulaciones matemáticas formales, aplicar herramientas apropiadas y producir informes estructurados y defendibles. ModelingBench también admite múltiples soluciones válidas, capturando la ambigüedad y la creatividad del modelado práctico. También presentamos ModelingAgent, un marco de múltiples agentes que coordina el uso de la herramienta, admite flujos de trabajo estructurados y permite que el autoinscinamiento iterativo genere soluciones creativas bien fundamentadas. Para evaluar los resultados, proponemos más modelando el jueces, un sistema experto en el bucle que aprovecha los LLM como jueces específicos de dominio que evalúan las soluciones desde múltiples perspectivas expertas. Los resultados empíricos muestran que el modelingagent supera sustancialmente las líneas de base fuertes y a menudo produce soluciones indistinguibles de las de los expertos humanos. Juntos, nuestro trabajo proporciona un marco integral para evaluar y avanzar en la resolución de problemas del mundo real en desafíos de modelado interdisciplinarios abiertos.
Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original