Resumen: El auto reconocimiento es una capacidad metacognitiva crucial para los sistemas de IA, relevante no solo para el análisis psicológico sino también para la seguridad, particularmente en escenarios de evaluación. Motivado por interpretaciones contradictorias de si los modelos poseen auto reconocimiento (Panickssery et al., 2024; Davidson et al., 2024), presentamos un marco de evaluación sistemático que se puede aplicar y actualizar fácilmente. Específicamente, medimos qué tan bien 10 modelos de lenguaje más grandes contemporáneos (LLM) pueden identificar su propio texto generado versus texto de otros modelos a través de dos tareas: auto reconocimiento binario y predicción exacta del modelo. A diferencia de las afirmaciones anteriores, nuestros resultados revelan una falla consistente en el auto reconocimiento. Solo 4 de cada 10 modelos se predicen a sí mismos como generadores, y el rendimiento rara vez está por encima de la posibilidad aleatoria. Además, los modelos exhiben un fuerte sesgo hacia la predicción de familias GPT y Claude. También proporcionamos la primera evaluación de la conciencia del modelo de su propia existencia y de los demás, así como el razonamiento detrás de sus elecciones en el auto reconocimiento. Encontramos que el modelo demuestra cierto conocimiento de su propia existencia y otros modelos, pero su razonamiento revela un sesgo jerárquico. Parecen asumir que GPT, Claude y ocasionalmente Géminis son los modelos de primer nivel, a menudo asociando texto de alta calidad con ellos. Concluimos discutiendo las implicaciones de nuestros hallazgos sobre la seguridad de la IA y las instrucciones futuras para desarrollar la autoconciencia apropiada de la IA.
Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver fuente original
