¿Son los modelos de idiomas grandes capaces de un razonamiento relacional profundo? Insights de Deepseek-R1 y comparaciones de referencia

Resumen: ¿Hasta dónde están los modelos de idiomas grandes (LLM) en la realización de un razonamiento relacional profundo? En este artículo, evaluamos y comparamos las capacidades de razonamiento de tres LLM de vanguardia, a saber, Deepseek-R1, Deepseek-V3 y GPT-4O, a través de un conjunto de tareas de referencia cuidadosamente diseñadas en el árbol de árboles genealógicos y el razonamiento general de gráficos. Nuestros experimentos revelan que Deepseek-R1 logra constantemente los puntajes F1 más altos en múltiples tareas y tamaños de problemas, lo que demuestra una fuerte aptitud en la deducción lógica y la inferencia relacional. Sin embargo, todos los modelos evaluados, incluido Deepseek-R1, luchan significativamente a medida que aumenta la complejidad del problema, en gran medida debido a las limitaciones de la longitud del token y las estructuras de salida incompletas. Un análisis detallado de las largas respuestas de la cadena de pensamiento de Deepseek-R1 descubre sus estrategias únicas de planificación y verificación, pero también destaca las instancias de razonamiento incoherente o incompleto, llamando la atención sobre la necesidad de un escrutinio más profundo en la dinámica de inferencia interna de LLMS. Además, discutimos las direcciones clave para el trabajo futuro, incluido el papel del razonamiento multimodal y el examen sistemático de las fallas de razonamiento. Nuestros hallazgos proporcionan ideas empíricas e implicaciones teóricas para avanzar en las habilidades de razonamiento de LLMS, particularmente en tareas que exigen una inferencia lógica estructurada y múltiple. Nuestro repositorio de código estará disponible públicamente en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El índice de bombo de IA: los antibióticos diseñados por IA muestran promesa

Agentes de IA con herramientas colaborativas similares a los humanos: estrategias adaptativas para la resolución de problemas mejorada

Operacionalización de la casualidad: flujos de trabajo de IA de múltiples agentes para la caracterización de materiales mejorados con teoría en el bucle

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido