Resumen: A medida que los modelos de idiomas grandes (LLM) se despliegan cada vez más como agentes autónomos, comprender su cooperación y mecanismos sociales es cada vez más importante. En particular, cómo las LLM equilibran el autoestima y el bienestar colectivo es un desafío crítico para garantizar la alineación, la robustez y la implementación segura. En este documento, examinamos el desafío de la sanción costosa en los sistemas LLM de múltiples agentes, donde un agente debe decidir si invertir sus propios recursos para incentivar la cooperación o penalizar la deserción. Para estudiar esto, adaptamos un juego de bienes públicos con la elección institucional de la economía del comportamiento, lo que nos permite observar cómo los diferentes LLM navegan por dilemas sociales sobre las interacciones repetidas. Nuestro análisis revela cuatro patrones de comportamiento distintos entre los modelos: algunos establecen y sostienen constantemente altos niveles de cooperación, otros fluctúan entre el compromiso y la desconexión, algunos disminuyen gradualmente en el comportamiento cooperativo a lo largo del tiempo y otros siguen rígidamente estrategias fijas, independientemente de los resultados. Sorprendentemente, encontramos que el razonamiento de LLM, como la serie O1, lucha significativamente con la cooperación, mientras que algunos LLM tradicionales logran constantemente altos niveles de cooperación. Estos hallazgos sugieren que el enfoque actual para mejorar las LLM, que se centra en mejorar sus capacidades de razonamiento, no conduce necesariamente a la cooperación, proporcionando información valiosa para la implementación de agentes de LLM en entornos que requieren una colaboración sostenida. Nuestro código está disponible en esta URL HTTPS

Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original

Corrupido por el razonamiento: los modelos de lenguaje de razonamiento se convierten en ridores libres en los juegos de bienes públicos

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El cerebro del sueño y la actividad cardíaca predicen la flexibilidad cognitiva y el razonamiento conceptual utilizando el aprendizaje profundo

Restricciones sistémicas de indecidibilidad

El módulo de política de IA: Desarrollo de la competencia de los estudiantes de ciencias de la computación en ética y política de IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido