En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Evaluaciones en el trabajo: medir las capacidades de Genai en uso

Evaluaciones en el trabajo: medir las capacidades de Genai en uso

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los puntos de referencia actuales de IA se pierden la naturaleza desordenada y múltiple de la colaboración Human-AI. Presentamos un marco de evaluación que descompone las tareas del mundo real en subtareas interdependientes, lo que nos permite rastrear tanto el rendimiento de LLM como las estrategias de los usuarios en un diálogo. Complementando este marco, desarrollamos un conjunto de métricas, incluido un uso compuesto derivado de la similitud semántica, superposición de palabras y coincidencias numéricas; coherencia estructural; diversidad intra-giratoria; y una medida novedosa de la “frontera de información” que refleja la alineación entre las salidas de IA y el conocimiento práctico de los usuarios. Demostramos nuestra metodología en una tarea de valoración financiera que refleja la complejidad del mundo real. Nuestros hallazgos empíricos revelan que, si bien una mayor integración del contenido generado por LLM generalmente mejora la calidad del resultado, sus beneficios están moderados por factores como la incoherencia de respuesta, la diversidad excesiva de la subtarea y la distancia de la información proporcionada del conocimiento existente de los usuarios. Estos resultados sugieren que las estrategias de diálogo proactivo diseñadas para inyectar novedad pueden socavar inadvertidamente el rendimiento de las tareas. Por lo tanto, nuestro trabajo avanza una evaluación más holística de la colaboración Human-AI, que ofrece un marco metodológico robusto y una visión procesable para desarrollar procesos de trabajo más efectivos augmentados.

Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web