Resumen: La finalización del gráfico de conocimiento (KGC) tiene como objetivo predecir los hechos faltantes del KG observado. Si bien se han estudiado varios modelos de KGC, la evaluación de KGC aún sigue sin explorarse. En este artículo, observamos que las métricas existentes pasan por alto dos perspectivas clave para la evaluación de KGC: (A1) agudeza predictiva: el grado de rigor en la evaluación de una predicción individual, y (A2) solidez del sesgo de popularidad: la capacidad de predecir entidades de baja popularidad. Para reflejar ambas perspectivas, proponemos un marco de evaluación novedoso (PROBE), que consiste en un transformador de rango (RT) que estima el puntaje de cada predicción en función de un nivel requerido de agudeza predictiva y un agregador de rango (RA) que agrega todos los puntajes de manera consciente de la popularidad. Los experimentos con KG del mundo real revelan que las métricas existentes tienden a sobreestimar o subestimar la precisión de los modelos KGC, mientras que PROBE proporciona una comprensión integral de los modelos KGC y resultados de evaluación confiables.
Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original
