POLIS-Bench: Hacia una evaluación multidimensional de LLM para tareas de políticas bilingües en escenarios gubernamentales
Resumen:Presentamos POLIS-Bench, el primer conjunto de evaluación riguroso y sistemático diseñado para LLM que operan en escenarios de políticas gubernamentales bilingües. En comparación con los puntos de referencia existentes, POLIS-Bench introduce tres avances importantes.
Leer más →