Resumen: Los modelos de lenguaje grande (LLM) han demostrado capacidades notables en la comprensión del lenguaje natural, el razonamiento y la resolución de problemas en varios dominios. Sin embargo, su capacidad para realizar tareas de razonamiento complejas y de varios pasos esencial para aplicaciones en ciencia, medicina y restos legales en un área de investigación activa. Este documento examina las capacidades de razonamiento de los LLM contemporáneos, analizando sus fortalezas, limitaciones y potencial de mejora. El estudio utiliza técnicas de ingeniería rápida en el conjunto de datos de preguntas y respuestas de Googleproof de nivel de posgrado (GPQA) para evaluar el razonamiento científico de GPT-4O. Se probaron cinco técnicas populares de ingeniería rápida y dos indicaciones a medida: respuesta directa de línea de base (disparo cero), cadena de pensamiento (cot), cot cero, autoestimbre, autoconsistencia, descomposición y indicaciones múltiples. Nuestros hallazgos indican que si bien los LLM exhiben habilidades de razonamiento emergente, a menudo dependen del reconocimiento de patrones en lugar de una verdadera inferencia lógica, lo que lleva a inconsistencias en la resolución de problemas complejos. Los resultados indicaron que la autoconsistencia superó a la otra técnica de ingeniería rápida con una precisión del 52.99%, seguida de una respuesta directa (52.23%). COT de disparo cero (50%) superó la múltiplo (48.44%), la descomposición (47.77%), la autoestima (46.88%) y la cuna (43.75%). La autoconsistencia realizó el segundo peor al explicar las respuestas. Las técnicas simples como la respuesta directa, la cuna y la cuna de disparo cero tienen el mejor razonamiento científico. Proponemos una agenda de investigación destinada a unir estos huecos mediante la integración de marcos de razonamiento estructurado, enfoques de IA híbridos y metodologías humanas del bucle. Al evaluar críticamente los mecanismos de razonamiento de los LLM, este documento contribuye al discurso en curso sobre el futuro de la inteligencia general artificial y el desarrollo de sistemas de IA más sólidos y confiables.
Entender el razonamiento científico de LLM a través de las indicaciones y la explicación del modelo sobre las respuestas
- Autor de la entrada:admin
- Publicación de la entrada:6 mayo, 2025
- Categoría de la entrada:Noticias en general
Etiquetas: cs.AI
Please Share This Compartir este contenido
admin
Usuario de administración del sitio web