Domar al juez: eliminar los conflictos de la retroalimentación de la IA para un aprendizaje por refuerzo estable

Resumen:Sin embargo, este método a menudo enfrenta inconsistencias de juicio que pueden desestabilizar el aprendizaje por refuerzo. Si bien investigaciones anteriores se han centrado en la precisión de los juicios, la cuestión crítica de la coherencia lógica, especialmente cuestiones como los ciclos de preferencia, no se ha abordado por completo. Para llenar este vacío, presentamos un marco integral diseñado para detectar y resolver sistemáticamente estas inconsistencias durante el proceso de capacitación en aprendizaje por refuerzo. Nuestro marco incluye dos contribuciones principales: primero, la Tasa de Detección de Conflictos (CDR), una nueva métrica que cuantifica los conflictos de juicio, y segundo, Deconflicted Graph Rewards (DGR), un marco que purifica las señales eliminando ciclos antes de la optimización de políticas. DGR construye gráficos de preferencias a partir de los juicios iniciales, los transforma en gráficos acíclicos dirigidos (DAG) libres de conflictos y genera una señal de recompensa lógicamente coherente que es compatible con cualquier optimizador de políticas. Los resultados experimentales muestran que nuestro marco mejora significativamente la estabilidad del entrenamiento y el rendimiento del modelo en comparación con líneas de base sólidas, estableciendo la coherencia lógica como una dimensión crucial y ahora manejable de la retroalimentación de la IA.

Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

MAGNET: Hacia agentes GUI adaptativos con evolución del conocimiento impulsada por la memoria

El arte de hacer preguntas

Sigue las estrellas: Dynamic $ omega $ -shielding regular de políticas aprendidas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido