Comprensión de los patrones de evaluación de la IA: cómo los diferentes modelos GPT evalúan las descripciones en el idioma de la visión

Resumen: A medida que los sistemas de IA evalúan cada vez más otras salidas de IA, comprender su comportamiento de evaluación se vuelve crucial para prevenir los sesgos en cascada. Este estudio analiza las descripciones del idioma de la visión generadas por el modelo de describir cualquier modelo y evaluado por tres variantes GPT (GPT-4O, GPT-4O-Mini, GPT-5) para descubrir distintas “personalidades de evaluación” de las estrategias de evaluación subyacentes y los sesgos que cada modelo demuestra. GPT-4O-Mini exhibe consistencia sistemática con una varianza mínima, GPT-4O sobresale en la detección de errores, mientras que GPT-5 muestra un conservadurismo extremo con una alta variabilidad. Experimentos controlados utilizando Gemini 2.5 Pro como generador de preguntas independientes validan que estas personalidades son propiedades del modelo inherente en lugar de artefactos. El análisis de la familia cruzada a través de la similitud semántica de las preguntas generadas revela una divergencia significativa: los modelos GPT se agrupan junto con una alta similitud, mientras que Gemini exhibe estrategias de evaluación marcadamente diferentes. Todos los modelos GPT demuestran un sesgo consistente 2: 1 que favorece la evaluación negativa sobre la confirmación positiva, aunque este patrón parece específico de la familia en lugar de universal en todas las arquitecturas de IA. Estos hallazgos sugieren que la competencia de evaluación no escala con capacidad general y que la sólida evaluación de IA requiere diversas perspectivas arquitectónicas.

Publicado Originalme en export.arxiv.org El 15 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Actas del primer taller sobre el avance de la inteligencia artificial a través de la teoría de la mente

La descarga: dentro del movimiento Vitalismo y por qué la “memoria” de la IA es un problema de privacidad

La descarga: nuestro permafrost de descongelación y un futuro lleno de drones

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido