En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->POLIS-Bench: Hacia una evaluación multidimensional de LLM para tareas de políticas bilingües en escenarios gubernamentales

POLIS-Bench: Hacia una evaluación multidimensional de LLM para tareas de políticas bilingües en escenarios gubernamentales

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Presentamos POLIS-Bench, el primer conjunto de evaluación riguroso y sistemático diseñado para LLM que operan en escenarios de políticas gubernamentales bilingües. En comparación con los puntos de referencia existentes, POLIS-Bench introduce tres avances importantes. (i) Corpus bilingüe actualizado: construimos un corpus de políticas extenso y actualizado que amplía significativamente el tamaño de la muestra de evaluación efectiva, asegurando la relevancia para la práctica de gobernanza actual. (ii) Diseño de tareas basadas en escenarios: Destilamos tres tareas especializadas basadas en escenarios: recuperación e interpretación de cláusulas, generación de soluciones y jueces de cumplimiento, para investigar de manera integral la comprensión y aplicación del modelo. (iii) Marco de evaluación de métrica dual: Establecemos un marco de evaluación de métrica dual novedoso que combina similitud semántica con tasa de precisión para medir con precisión tanto la alineación del contenido como el cumplimiento de los requisitos de la tarea. Una evaluación a gran escala de más de 10 LLM de última generación en POLIS-Bench revela una jerarquía de desempeño clara donde los modelos de razonamiento mantienen una estabilidad y precisión superiores entre tareas, destacando la dificultad de las tareas de cumplimiento. Además, aprovechando nuestro punto de referencia, ajustamos con éxito un modelo ligero de código abierto. Los modelos resultantes de la serie POLIS logran la paridad con, o superan, sólidas líneas de base patentadas en múltiples subtareas de políticas a un costo significativamente reducido, proporcionando un camino rentable y compatible para una implementación gubernamental sólida en el mundo real.

Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web