Hacia una comprensión más profunda de las capacidades de razonamiento en modelos de idiomas grandes

Resumen: Si bien los modelos de lenguaje grande demuestran un rendimiento impresionante en los puntos de referencia estáticos, el verdadero potencial de los modelos de lenguaje grandes como agentes de autoaprendizaje y razonamiento en entornos dinámicos sigue siendo poco claro. Este estudio evalúa sistemáticamente la eficacia de la autorreflexión, la mutación heurística y la planificación como técnicas de incitación a probar las capacidades adaptativas de los agentes. Realizamos experimentos con varios modelos de lenguaje de código abierto en entornos dinámicos y encontramos que los modelos más grandes generalmente superan a los más pequeños, pero esa solicitud estratégica puede cerrar esta brecha de rendimiento. En segundo lugar, un aviso demasiado largo puede afectar negativamente los modelos más pequeños en las tareas reactivas básicas, mientras que los modelos más grandes muestran un comportamiento más robusto. En tercer lugar, las técnicas avanzadas de solicitación benefician principalmente a modelos más pequeños en juegos complejos, pero ofrecen menos mejora para modelos de lenguaje grandes ya de alto rendimiento. Sin embargo, encontramos que los métodos de razonamiento avanzados producen resultados muy variables: aunque capaces de mejorar significativamente el rendimiento al razonar y alinearse la toma de decisiones, también introducen inestabilidad y pueden conducir a grandes caídas de rendimiento. En comparación con el rendimiento humano, nuestros hallazgos revelan poca evidencia de un verdadero razonamiento emergente. En cambio, el rendimiento del modelo de lenguaje grande exhibe limitaciones persistentes en áreas cruciales como la planificación, el razonamiento y la coordinación espacial, lo que sugiere que los modelos de lenguaje grande de generación actual todavía sufren deficiencias fundamentales que pueden no superar completamente a través de la solicitud autorreflectiva solo. El razonamiento es una tarea multifacética, y aunque los métodos de razonamiento como la cadena de pensamiento mejoran el razonamiento de múltiples pasos en los problemas de las palabras matemáticas, nuestros hallazgos que utilizan puntos de referencia dinámicos destacan deficiencias importantes en las capacidades de razonamiento general, lo que indica la necesidad de ir más allá de los puntos de referencia estáticos para capturar la complejidad del razonamiento.

Publicado Originalme en rss.arxiv.org El 15 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Barreras de 6G Barreras: cómo los investigadores hicieron realidad inalámbrica ultra rápida

Waymo podría hacer que tu próximo auto sea autónomo

3 pasos para construir una estrategia de defensa de información errónea para su negocio

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido