Evaluaciones en el trabajo: medir las capacidades de Genai en uso

Resumen: Los puntos de referencia actuales de IA se pierden la naturaleza desordenada y múltiple de la colaboración Human-AI. Presentamos un marco de evaluación que descompone las tareas del mundo real en subtareas interdependientes, lo que nos permite rastrear tanto el rendimiento de LLM como las estrategias de los usuarios en un diálogo. Complementando este marco, desarrollamos un conjunto de métricas, incluido un uso compuesto derivado de la similitud semántica, superposición de palabras y coincidencias numéricas; coherencia estructural; diversidad intra-giratoria; y una medida novedosa de la “frontera de información” que refleja la alineación entre las salidas de IA y el conocimiento práctico de los usuarios. Demostramos nuestra metodología en una tarea de valoración financiera que refleja la complejidad del mundo real. Nuestros hallazgos empíricos revelan que, si bien una mayor integración del contenido generado por LLM generalmente mejora la calidad del resultado, sus beneficios están moderados por factores como la incoherencia de respuesta, la diversidad excesiva de la subtarea y la distancia de la información proporcionada del conocimiento existente de los usuarios. Estos resultados sugieren que las estrategias de diálogo proactivo diseñadas para inyectar novedad pueden socavar inadvertidamente el rendimiento de las tareas. Por lo tanto, nuestro trabajo avanza una evaluación más holística de la colaboración Human-AI, que ofrece un marco metodológico robusto y una visión procesable para desarrollar procesos de trabajo más efectivos augmentados.

Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

IEEE lanza ferias profesionales virtuales globales

El aprendizaje profundo consciente del contexto que utiliza información previa individualizada reduce los falsos positivos en la predicción del riesgo de enfermedades y la evaluación longitudinal de la salud.

La atención como vinculante: una perspectiva vectorial-simbólica sobre el razonamiento de los transformadores

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido