Resumen: Los modelos de idiomas (LMS) continúan avanzando, mejorando la calidad y la coherencia de la respuesta. Dados los conjuntos de datos de capacitación a escala de Internet, LMS probablemente haya encontrado gran parte de lo que los usuarios podrían pedirles que generen de alguna forma durante su capacitación. Se han construido una gran cantidad de puntos de referencia de evaluación para evaluar la calidad del modelo, la idoneidad de la respuesta y las capacidades de razonamiento. Sin embargo, el esfuerzo humano requerido para la construcción de referencia es limitado y es superado rápidamente por el tamaño y el alcance de los modelos bajo evaluación. Además, tener humanos construye un punto de referencia para cada dominio posible de interés no es práctico. Por lo tanto, proponemos una metodología para automatizar la construcción de evaluaciones del modelo de datos sintéticos basados en hechos basados en las poblaciones de documentos. Este trabajo aprovecha aquellos mismos LMS para evaluar el conocimiento específico del dominio automáticamente, utilizando solo documentos de base (por ejemplo, un libro de texto) como entrada. Este enfoque de evaluación comparativa de datos sintéticos se corresponde bien con las preguntas curadas humanas con una correlación de clasificación de Spearman de 0.96 y una correlación de precisión de evaluación de referencia de Pearson de 0.79. Esta nueva herramienta admite la generación de preguntas de datos sintéticos de opción múltiple y abierta para obtener una visión de diagnóstico de la capacidad de LM. Aplicamos esta metodología para evaluar el rendimiento del modelo en una preimpresión de ARXIV relevante reciente, descubriendo un rendimiento sorprendentemente fuerte de los modelos GEMMA3.
Publicado Originalme en rss.arxiv.org El 14 de mayo de 2025.
Ver Fuente Original