Resumen: Proponemos las puntuaciones semánticas de F1, métricas de evaluación novedosas para la clasificación multiclabel subjetiva o difusa que cuantifican la relación semántica entre las etiquetas predichas y de oro. A diferencia de las métricas F1 convencionales que tratan las predicciones semánticamente relacionadas como fallas completas, F1 semántico incorpora una matriz de similitud de etiqueta para calcular las puntuaciones suaves de precisión y de recuerdo, a partir de las cuales se derivan las puntuaciones semánticas de F1. A diferencia de las métricas existentes basadas en la similitud, nuestra nueva formulación de recuperación de precisión de dos pasos permite la comparación de conjuntos de etiquetas de tamaños arbitrarios sin descartar etiquetas o forzar coincidencias entre etiquetas diferentes. Al otorgar crédito parcial para etiquetas semánticamente relacionadas pero no idénticas, la F1 semántica refleja mejor las realidades de los dominios marcados por el desacuerdo humano o los límites confusos de la categoría. De esta manera, proporciona evaluaciones más justas: reconoce que las categorías se superponen, que los anotadores no están de acuerdo y que las decisiones aguas abajo basadas en predicciones similares conducen a resultados similares. A través de la justificación teórica y la validación empírica extensa sobre datos sintéticos y reales, mostramos que la F1 semántica demuestra una mayor interpretabilidad y validez ecológica. Debido a que solo requiere una matriz de similitud apropiada para el dominio, que es robusta a la especificación errónea, y no una ontología rígida, es aplicable en todas las tareas y modalidades.
Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original
