Resumen: Las implementaciones de LLM están fallando en industrias altamente reguladas debido a problemas de inestabilidad, razonamiento inconsistente, alucinaciones y variabilidad del desempeño, especialmente en los flujos de trabajo. Estos problemas de confiabilidad restringen el uso seguro de LLM en áreas que necesitan precisión de hechos y comportamiento consistente (Aiyappa et al., 2023). Los métodos actuales de estabilización, como el aprendizaje por refuerzo con retroalimentación humana (RLHF) y el ajuste fino supervisado, ofrecen mejoras cuantificables pero son costosos y se basan en la anotación intensiva de humanos, por lo que no se pueden escalar fácilmente de manera sostenible (Dong et al., 2023; Retzlaff et al., 2024). Este artículo presenta un canal de anotaciones basado en IA que identifica, etiqueta y corrige sistemáticamente patrones de inestabilidad en la salida de LLM. Nuestro método de sinergia humano-IA combina los modelos de supervisión débil automatizada y anotación basada en la confianza con la validación humana objetivo para garantizar la confiabilidad y la rectitud moral de la información de retroalimentación (Cabitza et al., 2023; Jiang et al., 2023). Las categorías de consistencia semántica, corrección fáctica y coherencia lógica de la anotación específica de estabilidad se introducen en nuestro marco, lo que permite la calibración continua de los modelos y la mejora de su solidez en función de los ciclos de retroalimentación (Honovich et al., 2021; Nan et al., 2021).
Publicado originalmente en export.arxiv.org el 16 de diciembre de 2025.
Ver fuente original
