En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Canales de anotación impulsados ​​por IA para estabilizar modelos de lenguaje grandes: un enfoque de sinergia entre humanos e IA

Canales de anotación impulsados ​​por IA para estabilizar modelos de lenguaje grandes: un enfoque de sinergia entre humanos e IA

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las implementaciones de LLM están fallando en industrias altamente reguladas debido a problemas de inestabilidad, razonamiento inconsistente, alucinaciones y variabilidad del desempeño, especialmente en los flujos de trabajo. Estos problemas de confiabilidad restringen el uso seguro de LLM en áreas que necesitan precisión de hechos y comportamiento consistente (Aiyappa et al., 2023). Los métodos actuales de estabilización, como el aprendizaje por refuerzo con retroalimentación humana (RLHF) y el ajuste fino supervisado, ofrecen mejoras cuantificables pero son costosos y se basan en la anotación intensiva de humanos, por lo que no se pueden escalar fácilmente de manera sostenible (Dong et al., 2023; Retzlaff et al., 2024). Este artículo presenta un canal de anotaciones basado en IA que identifica, etiqueta y corrige sistemáticamente patrones de inestabilidad en la salida de LLM. Nuestro método de sinergia humano-IA combina los modelos de supervisión débil automatizada y anotación basada en la confianza con la validación humana objetivo para garantizar la confiabilidad y la rectitud moral de la información de retroalimentación (Cabitza et al., 2023; Jiang et al., 2023). Las categorías de consistencia semántica, corrección fáctica y coherencia lógica de la anotación específica de estabilidad se introducen en nuestro marco, lo que permite la calibración continua de los modelos y la mejora de su solidez en función de los ciclos de retroalimentación (Honovich et al., 2021; Nan et al., 2021).

Publicado originalmente en export.arxiv.org el 16 de diciembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web