En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Son los modelos de idiomas grandes capaces de un razonamiento relacional profundo? Insights de Deepseek-R1 y comparaciones de referencia

¿Son los modelos de idiomas grandes capaces de un razonamiento relacional profundo? Insights de Deepseek-R1 y comparaciones de referencia

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: ¿Hasta dónde están los modelos de idiomas grandes (LLM) en la realización de un razonamiento relacional profundo? En este artículo, evaluamos y comparamos las capacidades de razonamiento de tres LLM de vanguardia, a saber, Deepseek-R1, Deepseek-V3 y GPT-4O, a través de un conjunto de tareas de referencia cuidadosamente diseñadas en el árbol de árboles genealógicos y el razonamiento general de gráficos. Nuestros experimentos revelan que Deepseek-R1 logra constantemente los puntajes F1 más altos en múltiples tareas y tamaños de problemas, lo que demuestra una fuerte aptitud en la deducción lógica y la inferencia relacional. Sin embargo, todos los modelos evaluados, incluido Deepseek-R1, luchan significativamente a medida que aumenta la complejidad del problema, en gran medida debido a las limitaciones de la longitud del token y las estructuras de salida incompletas. Un análisis detallado de las largas respuestas de la cadena de pensamiento de Deepseek-R1 descubre sus estrategias únicas de planificación y verificación, pero también destaca las instancias de razonamiento incoherente o incompleto, llamando la atención sobre la necesidad de un escrutinio más profundo en la dinámica de inferencia interna de LLMS. Además, discutimos las direcciones clave para el trabajo futuro, incluido el papel del razonamiento multimodal y el examen sistemático de las fallas de razonamiento. Nuestros hallazgos proporcionan ideas empíricas e implicaciones teóricas para avanzar en las habilidades de razonamiento de LLMS, particularmente en tareas que exigen una inferencia lógica estructurada y múltiple. Nuestro repositorio de código estará disponible públicamente en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web