Resumen: La evaluación de modelos de lenguaje grande (LLM) en dominios de razonamiento complejos generalmente se basa en la alineación del desempeño con oráculos de verdad fundamental. En el ámbito del ajedrez, este estándar se manifiesta como puntos de referencia de precisión frente a motores potentes como Stockfish. Sin embargo, una alta precisión escalar no implica necesariamente una comprensión conceptual sólida. Este artículo sostiene que las métricas de precisión estándar no logran distinguir entre el razonamiento geométrico genuino y la memorización superficial de los estados canónicos del tablero. Para abordar esta brecha, proponemos un marco de estabilidad geométrica, una metodología de evaluación novedosa que prueba rigurosamente la coherencia del modelo bajo transformaciones invariantes, incluida la rotación del tablero, la simetría especular, la inversión de color y la conversión de formato. Aplicamos este marco a un análisis comparativo de seis LLM de última generación, incluidos GPT-5.1, Claude Sonnet 4.5 y Kimi K2 Turbo, utilizando un conjunto de datos de aproximadamente 3000 posiciones. Nuestros resultados revelan una importante paradoja precisión-estabilidad. Si bien modelos como GPT-5.1 logran una precisión casi óptima en posiciones estándar, exhiben una degradación catastrófica bajo perturbaciones geométricas, específicamente en tareas de rotación donde las tasas de error aumentan en más del 600%. Esta disparidad sugiere una dependencia de la coincidencia de patrones sobre la lógica espacial abstracta. Por el contrario, Claude Sonnet 4.5 y Kimi K2 Turbo demuestran una robustez dual superior, manteniendo una alta consistencia en todos los ejes de transformación. Además, analizamos el equilibrio entre utilidad y seguridad, identificando a Gemini 2.5 Flash como líder en rechazo estatal ilegal (96,0%). Concluimos que la estabilidad geométrica proporciona una métrica ortogonal y esencial para la evaluación de la IA, ofreciendo un proxy necesario para desenredar las capacidades de razonamiento de la contaminación de datos y el sobreajuste en modelos a gran escala.
Publicado originalmente en export.arxiv.org el 18 de diciembre de 2025.
Ver fuente original
