Modelingagent: puente de LLMS y modelado matemático para desafíos del mundo real

Resumen: El progreso reciente en modelos de idiomas grandes (LLM) ha permitido avances sustanciales para resolver problemas matemáticos. Sin embargo, los puntos de referencia existentes a menudo no reflejan la complejidad de los problemas del mundo real, que exigen un razonamiento interdisciplinario abierto e integración de herramientas computacionales. Para abordar esta brecha, presentamos ModelingBench, un nuevo punto de referencia que presenta problemas abiertos y de inspiración en el mundo real de competiciones de modelado matemático en diversos dominios, desde la optimización del tráfico urbano hasta la planificación de los recursos del ecosistema. Estas tareas requieren traducir el lenguaje natural en formulaciones matemáticas formales, aplicar herramientas apropiadas y producir informes estructurados y defendibles. ModelingBench también admite múltiples soluciones válidas, capturando la ambigüedad y la creatividad del modelado práctico. También presentamos ModelingAgent, un marco de múltiples agentes que coordina el uso de la herramienta, admite flujos de trabajo estructurados y permite que el autoinscinamiento iterativo genere soluciones creativas bien fundamentadas. Para evaluar los resultados, proponemos más modelando el jueces, un sistema experto en el bucle que aprovecha los LLM como jueces específicos de dominio que evalúan las soluciones desde múltiples perspectivas expertas. Los resultados empíricos muestran que el modelingagent supera sustancialmente las líneas de base fuertes y a menudo produce soluciones indistinguibles de las de los expertos humanos. Juntos, nuestro trabajo proporciona un marco integral para evaluar y avanzar en la resolución de problemas del mundo real en desafíos de modelado interdisciplinarios abiertos.

Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: cómo arreglar un tractor y vivir entre teóricos de la conspiración

Un motor gráfico para la educación sobre solos de tonos de acordes de guitarra

¿Quién ve qué? Secuencias estructuradas de acción pensativa para razonamiento epistémico en LLMS

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido