En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Medición del razonamiento en LLM: un nuevo ángulo dialéctico

Medición del razonamiento en LLM: un nuevo ángulo dialéctico

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: ¿Qué significa realmente que un modelo de lenguaje “razone”? La mayoría de las evaluaciones y puntos de referencia actuales recompensan las respuestas independientes correctas de los modelos, pero la corrección por sí sola revela poco sobre el proceso que las produjo. En este trabajo, exploramos una perspectiva diferente: el razonamiento no es una cadena estática de pasos, sino una trayectoria dinámica donde las ideas interactúan, chocan y evolucionan hacia conocimientos más profundos. Para capturar esta dinámica, nos basamos en una tradición filosófica bien establecida: textit{dialéctica}, donde el razonamiento se desarrolla a través de tesis, antítesis y síntesis. Sobre esta base, presentamos SIEV, un marco estructurado que evalúa el razonamiento de los LLM a través de la dialéctica. A diferencia de las evaluaciones convencionales, SIEV evalúa no sólo la conclusión a la que llega un modelo, sino también cómo llega allí: su capacidad para resolver tensiones, integrar ideas distintas y sintetizar razonamientos de orden superior. Esta lente descubre importantes lagunas de razonamiento en modelos de última generación, incluso bajo puntos de referencia saturados como GSM y MMLU. Por ejemplo, GPT-5-chat, un modelo reciente, pierde más de 40 puntos (sobre 100) cuando se evalúa con SIEV en GSM. Nuestros hallazgos resaltan que la adopción de un enfoque orientado a procesos y fundamentado filosóficamente permite una evaluación más profunda, más rigurosa y más discriminativa del razonamiento LLM.

Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web