Más allá de la precisión: un análisis de estabilidad geométrica de modelos de lenguaje grandes en la evaluación del ajedrez
Resumen: La evaluación de modelos de lenguaje grande (LLM) en dominios de razonamiento complejos generalmente se basa en la alineación del desempeño con oráculos de verdad fundamental. En el ámbito del ajedrez, este estándar se manifiesta como puntos de referencia de precisión frente a motores potentes como Stockfish.
Leer más →