En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Beyond Benchmark: Evaluación de LLMS con una hoja de ruta antropomórfica y orientada al valor

Beyond Benchmark: Evaluación de LLMS con una hoja de ruta antropomórfica y orientada al valor

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Para modelos de idiomas grandes (LLM), una desconexión persiste entre el rendimiento de referencia y la utilidad del mundo real. Los marcos de evaluación actuales permanecen fragmentados, priorizando las métricas técnicas al tiempo que descuida la evaluación holística para el despliegue. Esta encuesta introduce un paradigma de evaluación antropomórfica a través de la lente de la inteligencia humana, que propone una nueva taxonomía tridimensional: inteligencia general del cociente de inteligencia (IQ) para la capacidad fundamental, el cociente emocional (EQ) capacidad de alineación para las interacciones basadas en el valor y la experiencia profesional para el beneficio especializado para el dominio especializado. Para un valor práctico, es pionero en un marco de evaluación orientado al valor (VQ) que evalúa la viabilidad económica, el impacto social, la alineación ética y la sostenibilidad ambiental. Nuestra arquitectura modular integra seis componentes con una hoja de ruta de implementación. A través del análisis de más de 200 puntos de referencia, identificamos desafíos clave, incluidas las necesidades de evaluación dinámica y las brechas de interpretabilidad. Proporciona una guía procesable para desarrollar LLM que son técnicamente competentes, contextualmente relevantes y éticamente sólidos. Mantenemos un repositorio curado de recursos de evaluación de código abierto en: esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 26 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web