En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Comprensión de los patrones de evaluación de la IA: cómo los diferentes modelos GPT evalúan las descripciones en el idioma de la visión

Comprensión de los patrones de evaluación de la IA: cómo los diferentes modelos GPT evalúan las descripciones en el idioma de la visión

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: A medida que los sistemas de IA evalúan cada vez más otras salidas de IA, comprender su comportamiento de evaluación se vuelve crucial para prevenir los sesgos en cascada. Este estudio analiza las descripciones del idioma de la visión generadas por el modelo de describir cualquier modelo y evaluado por tres variantes GPT (GPT-4O, GPT-4O-Mini, GPT-5) para descubrir distintas “personalidades de evaluación” de las estrategias de evaluación subyacentes y los sesgos que cada modelo demuestra. GPT-4O-Mini exhibe consistencia sistemática con una varianza mínima, GPT-4O sobresale en la detección de errores, mientras que GPT-5 muestra un conservadurismo extremo con una alta variabilidad. Experimentos controlados utilizando Gemini 2.5 Pro como generador de preguntas independientes validan que estas personalidades son propiedades del modelo inherente en lugar de artefactos. El análisis de la familia cruzada a través de la similitud semántica de las preguntas generadas revela una divergencia significativa: los modelos GPT se agrupan junto con una alta similitud, mientras que Gemini exhibe estrategias de evaluación marcadamente diferentes. Todos los modelos GPT demuestran un sesgo consistente 2: 1 que favorece la evaluación negativa sobre la confirmación positiva, aunque este patrón parece específico de la familia en lugar de universal en todas las arquitecturas de IA. Estos hallazgos sugieren que la competencia de evaluación no escala con capacidad general y que la sólida evaluación de IA requiere diversas perspectivas arquitectónicas.

Publicado Originalme en export.arxiv.org El 15 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web