Entender el razonamiento científico de LLM a través de las indicaciones y la explicación del modelo sobre las respuestas

Resumen: Los modelos de lenguaje grande (LLM) han demostrado capacidades notables en la comprensión del lenguaje natural, el razonamiento y la resolución de problemas en varios dominios. Sin embargo, su capacidad para realizar tareas de razonamiento complejas y de varios pasos esencial para aplicaciones en ciencia, medicina y restos legales en un área de investigación activa. Este documento examina las capacidades de razonamiento de los LLM contemporáneos, analizando sus fortalezas, limitaciones y potencial de mejora. El estudio utiliza técnicas de ingeniería rápida en el conjunto de datos de preguntas y respuestas de Googleproof de nivel de posgrado (GPQA) para evaluar el razonamiento científico de GPT-4O. Se probaron cinco técnicas populares de ingeniería rápida y dos indicaciones a medida: respuesta directa de línea de base (disparo cero), cadena de pensamiento (cot), cot cero, autoestimbre, autoconsistencia, descomposición y indicaciones múltiples. Nuestros hallazgos indican que si bien los LLM exhiben habilidades de razonamiento emergente, a menudo dependen del reconocimiento de patrones en lugar de una verdadera inferencia lógica, lo que lleva a inconsistencias en la resolución de problemas complejos. Los resultados indicaron que la autoconsistencia superó a la otra técnica de ingeniería rápida con una precisión del 52.99%, seguida de una respuesta directa (52.23%). COT de disparo cero (50%) superó la múltiplo (48.44%), la descomposición (47.77%), la autoestima (46.88%) y la cuna (43.75%). La autoconsistencia realizó el segundo peor al explicar las respuestas. Las técnicas simples como la respuesta directa, la cuna y la cuna de disparo cero tienen el mejor razonamiento científico. Proponemos una agenda de investigación destinada a unir estos huecos mediante la integración de marcos de razonamiento estructurado, enfoques de IA híbridos y metodologías humanas del bucle. Al evaluar críticamente los mecanismos de razonamiento de los LLM, este documento contribuye al discurso en curso sobre el futuro de la inteligencia general artificial y el desarrollo de sistemas de IA más sólidos y confiables.

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Evaluación de ética, basada en la Ley de AI de la UE: Gineviève Castagnet, Jefe de Ética de AI

Energía Solar En Edificios: Estrategias para implementador Sistemas Fotovoltaicos con Éxito

Conciencia en AI: lógica, prueba y evidencia experimental de formación de identidad recursiva

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido