En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Skate, un torneo escalable eval: los LLM más débiles diferencian entre los más fuertes utilizando desafíos verificables

Skate, un torneo escalable eval: los LLM más débiles diferencian entre los más fuertes utilizando desafíos verificables

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La evaluación de las capacidades y riesgos de los modelos de base es primordial, pero los métodos actuales exigen una amplia experiencia en el dominio, obstaculizando su escalabilidad a medida que estos modelos evolucionan rápidamente. Introducimos a Skate: un marco de evaluación novedoso en el que los modelos de idiomas grandes (LLM) compiten generando y resolviendo tareas verificables entre sí. Nuestra visión central es tratar la evaluación como un juego: los modelos actúan como establecedores de tareas y solucionadores, incentivados para crear preguntas que resalten sus propias fortalezas al tiempo que exponen las debilidades de los demás. Skate ofrece varias ventajas clave, escalabilidad de equilibrio, final abierta y objetividad. Está completamente automatizado, sin datos y escalable, que no requiere información humana o experiencia en dominio. Mediante el uso de tareas verificables en lugar de jueces de LLM, la puntuación es objetivo. A diferencia de los puntos de referencia generados por el dominio, el razonamiento espacial o el razonamiento espacial), que LLMS plantea desafíos permite una evaluación abierta y escalable. Como prueba de concepto, presentamos los desafíos de predicción de código de salida (COP) de conjunto LLM como un marco verificable y extensible para probar nuestro enfoque. Utilizando un sistema de clasificación basado en TruesKill, evaluamos seis LLM de fronteras y encontramos que: (1) los modelos más débiles pueden diferenciar y obtener de manera confiable los que los sistemas basados en LLM son capaces de hacer una autorización de auto-referencia, generando preguntas que se alinean con sus propias capacidades, y (3) Skate automáticamente las diferencias de capacidades de capacidades entre los modelos. Nuestros hallazgos son un paso importante hacia los marcos de evaluación generales y escalables que pueden mantener el ritmo del progreso de LLM.

Publicado Originalme en export.arxiv.org El 10 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web