Hacia un marco LLM en cascada para la toma de decisiones rentables de Human-AI

Resumen: La toma de decisiones de Human-AI efectiva equilibra tres factores clave: la textit {corrección} de las predicciones, el textit {costo} de conocimiento y complejidad de razonamiento, y la confianza sobre si textit {abstenerse} respuestas automatizadas o involucrar a expertos humanos. En este trabajo, presentamos un marco de decisión de LLM en cascada que delega las tareas de forma adaptativa en múltiples niveles de especialización: un modelo base para las respuestas iniciales candidatas, un modelo grande más capaz y conocedor (pero más costoso), y un experto humano para cuando el modelo en cascada abstiene. Nuestro método procede en dos etapas. Primero, una política de aplazamiento determina si aceptar la respuesta del modelo base o regenerarla con el modelo grande basado en el puntaje de confianza. En segundo lugar, una política de abstención decide si la respuesta del modelo en cascada es suficientemente segura o requiere intervención humana. Además, incorporamos un mecanismo de aprendizaje en línea en el marco que puede aprovechar la retroalimentación humana para mejorar la calidad de la decisión con el tiempo. Demostramos este enfoque de la pregunta general (Respuesta de Arc y Challenge) y la respuesta médica (MEDQA y MEDMCQA). Nuestros resultados muestran que nuestra estrategia en cascada supera en la mayoría de los casos las líneas de base de un solo modelo con precisión, al tiempo que reduce los costos y proporciona una forma de principios de manejar las abstenciones.

Publicado Originalme en rss.arxiv.org El 15 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Entrenamiento en tándem para modelos de lenguaje

La descarga: los reguladores vienen para AI Companions y conocen a nuestro innovador de 2025

Autocuestionamiento contrafactual para la optimización de políticas estables en modelos lingüísticos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido