Resumen: La evaluación de las capacidades y riesgos de los modelos de base es primordial, pero los métodos actuales exigen una amplia experiencia en el dominio, obstaculizando su escalabilidad a medida que estos modelos evolucionan rápidamente. Introducimos a Skate: un marco de evaluación novedoso en el que los modelos de idiomas grandes (LLM) compiten generando y resolviendo tareas verificables entre sí. Nuestra visión central es tratar la evaluación como un juego: los modelos actúan como establecedores de tareas y solucionadores, incentivados para crear preguntas que resalten sus propias fortalezas al tiempo que exponen las debilidades de los demás. Skate ofrece varias ventajas clave, escalabilidad de equilibrio, final abierta y objetividad. Está completamente automatizado, sin datos y escalable, que no requiere información humana o experiencia en dominio. Mediante el uso de tareas verificables en lugar de jueces de LLM, la puntuación es objetivo. A diferencia de los puntos de referencia generados por el dominio, el razonamiento espacial o el razonamiento espacial), que LLMS plantea desafíos permite una evaluación abierta y escalable. Como prueba de concepto, presentamos los desafíos de predicción de código de salida (COP) de conjunto LLM como un marco verificable y extensible para probar nuestro enfoque. Utilizando un sistema de clasificación basado en TruesKill, evaluamos seis LLM de fronteras y encontramos que: (1) los modelos más débiles pueden diferenciar y obtener de manera confiable los que los sistemas basados en LLM son capaces de hacer una autorización de auto-referencia, generando preguntas que se alinean con sus propias capacidades, y (3) Skate automáticamente las diferencias de capacidades de capacidades entre los modelos. Nuestros hallazgos son un paso importante hacia los marcos de evaluación generales y escalables que pueden mantener el ritmo del progreso de LLM.
Publicado Originalme en export.arxiv.org El 10 de agosto de 2025.
Ver Fuente Original