En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Qué mide realmente tu punto de referencia? Un marco para una inferencia robusta de capacidades de IA

¿Qué mide realmente tu punto de referencia? Un marco para una inferencia robusta de capacidades de IA

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las evaluaciones de los modelos generativos en los datos de referencia ahora son omnipresentes, y sus resultados dan forma críticamente a las expectativas públicas y científicas de las capacidades de la IA. Sin embargo, el creciente escepticismo rodea su confiabilidad. ¿Cómo podemos saber que una precisión reportada refleja genuinamente el verdadero rendimiento de un modelo? Las evaluaciones a menudo se presentan como mediciones simples, pero en realidad son inferencias: tratar los puntajes de referencia como evidencia de capacidad ya es asumir una teoría de qué capacidad es y cómo se manifiesta en una prueba. Hacemos que este paso sea explícito proponiendo un marco de principios para la evaluación como inferencia: comience a partir de una teoría de la capacidad y luego derivamos métodos para estimarlo. Esta perspectiva, familiar en los campos como la psicometría, aún no se ha convertido en común en la evaluación de la IA. Como prueba de concepto, abordamos un desafío central que socava la fiabilidad: la sensibilidad a las perturbaciones. Después de formular un modelo de capacidad, introducimos métodos que infieren la capacidad al tiempo que explican la incertidumbre de la sensibilidad y las muestras finitas, incluido un algoritmo adaptativo que reduce significativamente la complejidad de la muestra. Juntos, estas contribuciones sientan las bases para estimaciones más confiables y confiables de las capacidades de IA medidas a través de puntos de referencia.

Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web