Al probar un modelo de IA, es difícil saber si es razonamiento o simplemente regurgitar las respuestas de sus datos de entrenamiento. Xbench, un nuevo punto de referencia desarrollado por la firma china de capital de riesgo HSG, o Hongshan Capital Group, podría ayudar a evitar ese problema. Eso es gracias a la forma en que evalúa los modelos no solo sobre la capacidad de pasar pruebas arbitrarias, como la mayoría de los otros puntos de referencia, sino también sobre la capacidad de ejecutar tareas del mundo real, lo cual es más inusual. Se actualizará regularmente para tratar de mantenerlo de hoja perenne.
Publicado Originalme en TechnologyReview.com el 23 de junio de 2025.
Ver Fuente Original