DPBench: Los modelos de lenguajes grandes luchan con la coordinación simultánea

Resumen:Los modelos de lenguajes grandes se implementan cada vez más en sistemas multiagente, pero carecemos de puntos de referencia que prueben si pueden coordinarse bajo competencia de recursos. Presentamos DPBench, un punto de referencia basado en el problema de Dining Philosophers que evalúa la coordinación de LLM en ocho condiciones que varían el tiempo de decisión, el tamaño del grupo y la comunicación. Nuestros experimentos con GPT-5.2, Claude Opus 4.5 y Grok 4.1 revelan una sorprendente asimetría: los LLM se coordinan eficazmente en entornos secuenciales, pero fallan cuando se deben tomar decisiones simultáneamente, con tasas de bloqueo que superan el 95% en algunas condiciones. Atribuimos este fracaso al razonamiento convergente, donde los agentes llegan de forma independiente a estrategias idénticas que, cuando se ejecutan simultáneamente, garantizan un punto muerto. Contrariamente a lo esperado, permitir la comunicación no resuelve este problema e incluso puede aumentar las tasas de estancamiento. Nuestros hallazgos sugieren que los sistemas LLM de múltiples agentes que requieren acceso simultáneo a recursos pueden necesitar mecanismos de coordinación externos en lugar de depender de una coordinación emergente. DPBench se lanza como un punto de referencia de código abierto. El código y el punto de referencia están disponibles en esta URL https.

Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Identificación de probabilidades de causalidad: una caracterización completa

¡Cuidado con la brecha (DH)! Un contraste en las decisiones arriesgadas entre los LLM de razonamiento y conversacionales

Cognición estructurada para la inteligencia conductual en agentes modelo de lenguaje grande: estudio preliminar

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido