Creatividad o fuerza bruta? Uso de BraiteNeasers como una ventana a las capacidades de resolución de problemas de modelos de idiomas grandes

Resumen: La precisión sigue siendo una métrica estándar para evaluar los sistemas de IA, pero ofrece una visión limitada de cómo los modelos llegan a sus soluciones. En este trabajo, presentamos un punto de referencia basado en Raigneasers escritos en forma narrativa larga para investigar más profundamente los tipos de estrategias de razonamiento que usan los modelos. Los BraiteNeasers son adecuados para este objetivo porque se pueden resolver con múltiples enfoques, como una solución de pocos pasos que utiliza una visión creativa o una solución más larga que utiliza una fuerza más bruta. Investigamos los modelos de idiomas grandes (LLM) en múltiples capas de razonamiento, centrándose no solo en la corrección sino también en la calidad y la creatividad de sus soluciones. Investigamos muchos aspectos del proceso de razonamiento: (1) el análisis semántico de los Brainterasers en formatos precisos de estilo de competencia matemática; (2) generar soluciones a partir de estas formas matemáticas; (3) soluciones de autocorrección basadas en soluciones de oro; (4) producir bocetos de soluciones paso a paso; y (5) hacer uso de pistas. Encontramos que los LLM pueden, en muchos casos, encontrar soluciones creativas y perspicaces para los BrainegeSers, lo que sugiere que capturan algunas de las capacidades necesarias para resolver problemas novedosos de manera creativa. No obstante, también quedan situaciones en las que confían en la fuerza bruta a pesar de la disponibilidad de soluciones creativas más eficientes, destacando una dirección potencial para mejorar las habilidades de razonamiento de los LLM.

Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Avance de solucionadores estocásticos de 3-SAT disipando restricciones sobrealimentadas

La hipótesis de la fase de bloqueo: la consolidación de la identidad como precursora de la AGI

Inmind: Evaluación de LLM para capturar y aplicar estilos de razonamiento humano individual

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido