Medición del razonamiento en LLM: un nuevo ángulo dialéctico

Resumen: ¿Qué significa realmente que un modelo de lenguaje “razone”? La mayoría de las evaluaciones y puntos de referencia actuales recompensan las respuestas independientes correctas de los modelos, pero la corrección por sí sola revela poco sobre el proceso que las produjo. En este trabajo, exploramos una perspectiva diferente: el razonamiento no es una cadena estática de pasos, sino una trayectoria dinámica donde las ideas interactúan, chocan y evolucionan hacia conocimientos más profundos. Para capturar esta dinámica, nos basamos en una tradición filosófica bien establecida: textit{dialéctica}, donde el razonamiento se desarrolla a través de tesis, antítesis y síntesis. Sobre esta base, presentamos SIEV, un marco estructurado que evalúa el razonamiento de los LLM a través de la dialéctica. A diferencia de las evaluaciones convencionales, SIEV evalúa no sólo la conclusión a la que llega un modelo, sino también cómo llega allí: su capacidad para resolver tensiones, integrar ideas distintas y sintetizar razonamientos de orden superior. Esta lente descubre importantes lagunas de razonamiento en modelos de última generación, incluso bajo puntos de referencia saturados como GSM y MMLU. Por ejemplo, GPT-5-chat, un modelo reciente, pierde más de 40 puntos (sobre 100) cuando se evalúa con SIEV en GSM. Nuestros hallazgos resaltan que la adopción de un enfoque orientado a procesos y fundamentado filosóficamente permite una evaluación más profunda, más rigurosa y más discriminativa del razonamiento LLM.

Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

RLMR: Aprendizaje de refuerzo con recompensas mixtas por escritura creativa

Asignación de crédito de ventaja multinivel para el aprendizaje cooperativo de refuerzo de múltiples agentes

La descarga: mitos de longevidad y robots de limpieza de alcantarillado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido