A menudo se considera que las matemáticas son el dominio ideal para medir eficazmente el progreso de la IA. La lógica paso a paso de las matemáticas es fácil de seguir y sus respuestas definitivas, verificables automáticamente, eliminan cualquier factor humano o subjetivo. Pero los sistemas de IA están mejorando a tal ritmo que las matemáticas los puntos de referencia están luchando por mantenerse al día.
Allá por noviembre de 2024, la organización de investigación sin fines de lucro Epoch AI lanzó silenciosamente FronteraMatemáticas. Frontier Math, un punto de referencia riguroso y estandarizado, fue diseñado para medir las capacidades de razonamiento matemático de las últimas herramientas de inteligencia artificial.
“Son un montón de problemas matemáticos realmente difíciles”, explica Greg Burnham, Investigador senior de Epoch AI. “Originalmente, eran 300 problemas los que ahora llamamos niveles 1 a 3, pero después de ver que las capacidades de la IA realmente se aceleraron, teníamos la sensación de que teníamos que correr para mantenernos a la vanguardia, por lo que ahora hay un conjunto de desafíos especiales de problemas construidos con mucho cuidado que llamamos nivel 4”.
En una aproximación aproximada, los niveles 1 a 4 van desde matemáticas de nivel universitario avanzado hasta matemáticas de nivel postdoctoral inicial. Cuando se introdujeron, los modelos de IA de última generación no pudieron resolver más del 2% de los problemas que contenía FrontierMath. Avance rápido hasta hoy y los mejores modelos de IA disponibles públicamente, como GPT-5.2 y Claude Opus 4.6, resuelven más del 40 % de los 300 problemas de niveles 1 a 3 de FrontierMath y más del 30 % de los 50 problemas de nivel 4.
La IA alcanza el nivel de doctorado en matemáticas
Y este vertiginoso ritmo de avance no muestra signos de disminuir. Por ejemplo, recientemente Google DeepMind anunciado que Aletheia, un sistema de IA experimental derivado de Gemini Deep Think, logró resultados de investigación publicables a nivel de doctorado. Aunque matemáticamente oscuro (calcular ciertas constantes estructurales en geometría aritmética llamadas pesos propios), el resultado es significativo en términos de desarrollo de la IA.
“Afirman que fue esencialmente autónomo, lo que significa que no había un ser humano guiando el trabajo y que es publicable”, dice Burnham. “Definitivamente se encuentra en el extremo inferior del espectro de trabajo que entusiasmaría a un matemático, pero es nuevo, es algo que realmente no hemos visto antes”.
Para poner este logro en contexto, cada problema de FrontierMath tiene una respuesta conocida que un ser humano ha obtenido. Aunque un humano probablemente podría haber logrado el resultado de Aletheia “si se hubiera sentado y armado de valor durante una semana”, dice Burnham, ningún humano lo había hecho nunca.
Los resultados de Aletheia y otros logros recientes de los matemáticos de IA apuntan a que se necesitan puntos de referencia nuevos y más estrictos para comprender las capacidades de la IA, y rápido, porque los existentes pronto se volverán irrelevantes. “Hay puntos de referencia matemáticos más fáciles que ya están obsoletos, varias generaciones de ellos”, dice Burnham. “FrontierMath probablemente se saturará [lo que significa que los modelos de IA de última generación obtienen una puntuación del 100 %] en los próximos dos años; podría ser más rápido”.
El desafío de la primera prueba
Para empezar a abordar este problema, el 6 de febrero, un grupo de 11 matemáticos muy distinguidos propuso el desafío de la Primera Prueba, un conjunto de 10 preguntas matemáticas extremadamente difíciles que surgieron naturalmente en los procesos de investigación de los autores, y cuyas pruebas tienen aproximadamente cinco páginas o menos y no se habían compartido con nadie. El desafío de la primera prueba Fue un esfuerzo preliminar para evaluar las capacidades de los sistemas de inteligencia artificial para resolver por sí solos preguntas matemáticas de nivel de investigación.
Generando un gran revuelo en la comunidad matemática, matemáticos profesionales y aficionados y equipos como OpenAI aceptaron el desafío. Pero cuando los autores publicado las pruebas el 14 de febrero, nadie había presentado soluciones correctas a los 10 problemas.
De hecho, ni mucho menos. Los propios autores sólo resolvieron dos de los 10 problemas utilizando Gemini 3.0 Deep Think y ChatGPT 5.2 Pro. Y a la mayoría de las presentaciones externas les fue un poco mejor, aparte de OpenAI y un pequeño equipo de Aletheia en Google DeepMind. Con “supervisión humana limitada”, el sistema de IA interno más avanzado de OpenAI resolvió cinco de los 10 problemas, y Aletheia logró resultados similares: resultados encontrados con un espectro de emociones por parte de diferentes miembros de la comunidad matemática, desde asombro hasta decepción. El equipo detrás de First Proof planea un desafío aún más difícil segunda vuelta el 14 de marzo.
Una nueva frontera para la IA
“Creo que First Proof es fantástico: es lo más parecido que se puede llegar a poner un sistema de IA en la piel de un matemático”, dice Burnham. Aunque admira cómo First Proof prueba la utilidad matemática de la IA para una amplia gama de matemáticos y matemáticos, Epoch AI tiene su propio nuevo enfoque para las pruebas:FrontierMath: problemas abiertos. Excepcionalmente, el punto de referencia piloto consta de 16 problemas abiertos (y habrá más por seguir) de matemáticas de investigación que los matemáticos profesionales han intentado resolver sin éxito. Desde Problemas Abiertos lanzamiento el 27 de eneroNinguno ha sido resuelto por una IA.
“Con Open Problems, hemos intentado hacerlo más desafiante”, dice Burnham. “La línea de base por sí sola sería publicable, al menos en una revista especializada”. Es más, cada pregunta está diseñada para que pueda calificarse automáticamente. “Esto es un poco contradictorio”, añade Burnham. “Nadie sabe las respuestas, pero tenemos un programa informático que podrá juzgar si la respuesta es correcta o no”.
Burnham considera que la primera prueba y los problemas abiertos son complementarios. “Yo diría que comprender las capacidades de la IA es una situación en la que cada vez es mejor”, añade. “La IA ha llegado al punto en que, en algunos aspectos, es mejor que la mayoría de los estudiantes de doctorado, por lo que debemos plantear problemas cuya respuesta sea al menos moderadamente interesante para algunos matemáticos humanos, no porque la IA lo esté haciendo, sino porque son las matemáticas lo que les importa a los matemáticos humanos”.
Publicado originalmente en {feed_name} el 25 de febrero de 2026.
Ver fuente original
