Stardojo: Benchmarking Behaviors abiertos de LLM multimodales de agente en simulaciones de vida de producción con Stardew Valley

Resumen: Los agentes autónomos que navegan por la sociedad humana deben dominar tanto las actividades de producción como las interacciones sociales, pero los puntos de referencia existentes rara vez evalúan estas habilidades simultáneamente. Para cerrar esta brecha, presentamos a Stardojo, un nuevo punto de referencia basado en Stardew Valley, diseñado para evaluar a los agentes de IA en simulaciones de producción abierta. En Stardojo, los agentes tienen la tarea de realizar actividades de medios de vida esenciales como la agricultura y la elaboración, al tiempo que participan simultáneamente en interacciones sociales para establecer relaciones dentro de una comunidad vibrante. Stardojo presenta 1,000 tareas meticulosamente seleccionadas en cinco dominios clave: agricultura, elaboración, exploración, combate e interacciones sociales. Además, proporcionamos un subconjunto compacto de 100 tareas representativas para una evaluación eficiente del modelo. El punto de referencia ofrece una interfaz unificada y fácil de usar que elimina la necesidad de control del teclado y el mouse, admite todos los principales sistemas operativos y permite la ejecución paralela de múltiples instancias del entorno, lo que hace que sea particularmente adecuado para evaluar los agentes fundamentales más capaces, impulsados por modelos de lenguaje grande (MLLM) multimodales. Las evaluaciones extensas de los agentes de MLLMS de última generación demuestran limitaciones sustanciales, con el modelo de mejor rendimiento, GPT-4.1, logrando solo una tasa de éxito del 12.7%, principalmente debido a los desafíos en la comprensión visual, el razonamiento multimodal y la manipulación de bajo nivel. Como un entorno y un punto de referencia fácil de usar, Stardojo tiene como objetivo facilitar una mayor investigación hacia agentes robustos y abiertos en entornos complejos de producción de producción.

Publicado Originalme en export.arxiv.org El 10 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

ToolTree: Planificación eficiente de herramientas de agentes LLM mediante búsqueda de árboles Monte Carlo de retroalimentación dual y poda bidireccional

Generando rompecabezas de ajedrez creativos

Cómo lidar mide el costo de los desastres climáticos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido