URZAGPT: modelos de idiomas grandes sintonizados con Lora para la selección de tarjetas en juegos de cartas coleccionables

Resumen: Los juegos de cartas coleccionables (CCG) son un género difícil para la IA debido a su observabilidad parcial, toma de decisiones a largo plazo y conjuntos de tarjetas en evolución. Debido a esto, los modelos actuales de IA funcionan enormemente que los jugadores humanos en tareas de CCG, como la construcción de mazos y el juego. En este trabajo, presentamos $ textit {urzagpt} $, un modelo de lenguaje grande adaptado al dominio que recomienda decisiones de redacción en tiempo real en $ textit {Magic: The Reunsing} $. A partir de un LLM de peso abierto, utilizamos adaptación de bajo rango ajustado en un conjunto de datos de registros de borradores anotados. Con esto, aprovechamos las capacidades de modelado de idiomas de LLM y podemos adaptar rápidamente a las diferentes expansiones del juego. Benchmaremos $ textit {urzagpt} $ en comparación con los LLM de cero-shot y el modelo específico de dominio de última generación. Sintonizados, pequeños LLM como Llama-3-8B no pueden redactar, pero el GPT-4O más grande logra un rendimiento de disparo cero de $ 43 %$. Usando URZAGPT para ajustar modelos más pequeños, logramos una precisión de $ 66.2 %$ usando solo 10,000 pasos. A pesar de que esto no alcanza la capacidad de los modelos específicos del dominio, mostramos que es posible usar únicamente el uso de LLM para el borrador y concluir que el uso de LLM puede habilitar el rendimiento, general y las IA de redacción de actualizaciones en el futuro.

Publicado Originalme en export.arxiv.org El 12 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Evocurr: plan de estudios de autoevolución con generación de código de comportamiento para la toma de decisiones complejas

Synaptics presenta la familia First Vera-Fi 7 a medida para el IoT

Mejora de la seguridad del agente de LLM mediante influencia causal de impulso

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido