En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->El razonamiento explícito hace mejores jueces: un estudio sistemático sobre precisión, eficiencia y robustez

El razonamiento explícito hace mejores jueces: un estudio sistemático sobre precisión, eficiencia y robustez

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: A medida que los modelos de idiomas grandes (LLM) se adoptan cada vez más a medida que los jueces automatizados en la evaluación comparativa y el modelado de recompensas, asegurando su confiabilidad, eficiencia y robustez se han vuelto críticas. En este trabajo, presentamos una comparación sistemática de LLMS “pensamiento” y “no pensamiento” en el paradigma LLM-AS-A-Judge utilizando modelos Qwen 3 de código abierto de tamaños relativamente pequeños (parámetros de 0.6b, 1.7b y 4b). Evaluamos tanto la precisión como la eficiencia computacional (FLOP) en las tareas del banco de recompensas, y examinamos más a fondo las estrategias de aumento para los modelos no pensativos, incluidos el aprendizaje en contexto, el juicio guiado por la rúbrica, la evaluación basada en referencia y la agregación N-Best. Nuestros resultados muestran que a pesar de estas mejoras, los modelos no pensados ​​generalmente no alcanzan sus homólogos de pensamiento. Nuestros resultados muestran que los modelos de pensamiento alcanzan aproximadamente un 10% de puntos de mayor precisión con poca sobrecarga (menos de 2x), en contraste con las estrategias de aumento como el aprendizaje de pocos disparos, que ofrecen ganancias modestas a un costo más alto (> 8x). Los análisis de sesgo y robustez demuestran además que los modelos de pensamiento mantienen una consistencia significativamente mayor en una variedad de condiciones de sesgo, como posicionales, caras, identidad, diversidad y sesgos aleatorios (6% más altos en promedio). Extendemos aún más nuestros experimentos a la configuración multilingüe y nuestros resultados confirman que el razonamiento explícito extiende sus beneficios más allá del inglés. En general, nuestro trabajo da como resultado varios hallazgos importantes que proporcionan evidencia sistemática de que el razonamiento explícito ofrece ventajas claras en el paradigma LLM-as-a-Judge no solo en precisión y eficiencia sino también en robustez.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web