Resumen: los modelos de lenguaje grande (LLM) y los modelos de lenguaje grande multimodal (MLLMS) han introducido una nueva era de capacidades de IA, lo que demuestra un rendimiento casi humano en diversos escenarios. Mientras que se han propuesto numerosos puntos de referencia (por ejemplo, MMLU) y tablas de clasificación (por ejemplo, Chatbot Arena) para ayudar a evolucionar el desarrollo de LLM y MLLMS, la mayoría depende de conjuntos de datos estáticos o indicaciones de dominio general de crowdsoured, a menudo no reflejan el rendimiento en las aplicaciones de los valores reales. Para cerrar esta brecha crítica, presentamos la arena de inclusión, una tabla de clasificación en vivo que clasifica a los modelos basados en la retroalimentación humana recopilada directamente de las aplicaciones con IA. Nuestra plataforma integra las comparaciones de modelos por pares en las interacciones naturales del usuario, lo que garantiza que las evaluaciones reflejen escenarios prácticos de uso. Para una clasificación de modelo robusta, empleamos el modelo Bradley-Terry aumentado con dos innovaciones clave: (1) coincidencias de colocación, un mecanismo de inicio en frío para estimar rápidamente las calificaciones iniciales para modelos recién integrados y (2) muestreo de proximidad, una estrategia de comparación inteligente que prioriza las batallas entre modelos de capacidades similares para maximizar la ganancia de información y mejorar la estabilidad de la clasificación. Los análisis y simulaciones empíricas extensas demuestran que la arena de inclusión produce clasificaciones confiables y estables, exhibe una mayor transitividad de datos en comparación con los conjuntos de datos de crowdsourcing general y mitiga significativamente el riesgo de manipulación maliciosa. Al fomentar una alianza abierta entre los modelos de base y las aplicaciones del mundo real, la arena de inclusión tiene como objetivo acelerar el desarrollo de LLM y MLLMS realmente optimizados para implementaciones prácticas centradas en el usuario. La plataforma es accesible públicamente en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 17 de agosto de 2025.
Ver Fuente Original

Arena de inclusión: una plataforma abierta para evaluar grandes modelos de base con aplicaciones del mundo real

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

BD lanza la solución de monitoreo hemodinámico de próxima generación que proporciona a los médicos un apoyo a la decisión clínica impulsada por la IA

TextSC {RFPG}: Gradientes de políticas de memoria finita robusta para POMDPS de modelo oculto

No solo un ayudante, sino también un maestro: Interactive LLM Cascade

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido