Resumen:A medida que los modelos de lenguaje grande (LLM) exhiben un rendimiento estancado en los puntos de referencia convencionales, persiste un desafío fundamental: evaluar su competencia en tareas complejas y abiertas que caracterizan la cognición genuina a nivel de experto. Los marcos existentes adolecen de una cobertura de dominio limitada, dependencia de tareas generalistas o sesgos de autoevaluación. Para cerrar esta brecha, presentamos XpertBench, un punto de referencia de alta fidelidad diseñado para evaluar LLM en dominios profesionales auténticos. XpertBench consta de 1346 tareas meticulosamente seleccionadas en 80 categorías, que abarcan finanzas, atención médica, servicios legales, educación e investigación de doble vía (STEM y Humanidades). Estas tareas se derivan de más de 1.000 presentaciones de expertos en el campo, incluidos investigadores de instituciones de élite y profesionales con amplia experiencia clínica o industrial, lo que garantiza una validez ecológica superior. Cada tarea utiliza rúbricas detalladas con en su mayoría entre 15 y 40 puntos de control ponderados para evaluar el rigor profesional. Para facilitar una evaluación escalable pero alineada con el ser humano, presentamos ShotJudge, un novedoso paradigma de evaluación que emplea jueces de LLM calibrados con ejemplos expertos de pocas oportunidades para mitigar los sesgos de autogratificación. Nuestra evaluación empírica de los LLM de última generación revela un techo de rendimiento pronunciado: incluso los modelos líderes logran una tasa máxima de éxito de solo ~66%, con una puntuación media de alrededor del 55%. Los modelos también exhiben divergencia específica de dominio, mostrando fortalezas no superpuestas en el razonamiento cuantitativo frente a la síntesis lingüística. Estos hallazgos subrayan una “brecha de expertos” significativa en los sistemas de IA actuales y establecen a XpertBench como un instrumento crítico para navegar la transición de asistentes de propósito general a colaboradores profesionales especializados.
Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original
