Predicción eficiente de la escala Pass@k en modelos de lenguaje grandes

Resumen:Evaluar las capacidades y los riesgos de los sistemas de IA de vanguardia es un área crítica de investigación, y trabajos recientes han demostrado que el muestreo repetido de modelos puede aumentar dramáticamente ambos. Por ejemplo, se ha demostrado que el muestreo repetido aumenta sus capacidades, como resolver problemas difíciles de matemáticas y codificación, pero también se ha demostrado que aumenta su potencial de daño, como el jailbreak. Estos resultados plantean una pregunta crucial tanto para la previsión de capacidad como de seguridad: ¿cómo se puede predecir con precisión el comportamiento de un modelo cuando se escala a un número masivo de intentos, dado un presupuesto de muestreo mucho menor? Esta pregunta es directamente relevante para los proveedores modelo, que atienden a cientos de millones de usuarios diariamente, y para los reguladores gubernamentales, que buscan prevenir daños. Para responder a estas preguntas, hacemos tres contribuciones. En primer lugar, encontramos que los métodos estándar para ajustar estas leyes adolecen de deficiencias estadísticas que dificultan la precisión predictiva, especialmente en escenarios con datos limitados. En segundo lugar, remediamos estas deficiencias introduciendo un marco de estimación sólido, que utiliza una distribución beta binomial para generar predicciones más precisas a partir de datos limitados. En tercer lugar, proponemos una estrategia de muestreo dinámico que asigna un mayor presupuesto a problemas más difíciles. Combinadas, estas innovaciones permiten una predicción más confiable de riesgos y capacidades poco comunes a una fracción del costo computacional.

Publicado originalmente en export.arxiv.org el 7 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Proyecto Riley: colaboración multimodal de múltiples agentes LLM con razonamiento emocional y votación

Atención de un beso: explorando mapas de atención en la difusión de video para xaixarts

Las pinturas, revestimientos y productos químicos que hacen del mundo un lugar más fresco

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido