En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Domar al juez: eliminar los conflictos de la retroalimentación de la IA para un aprendizaje por refuerzo estable

Domar al juez: eliminar los conflictos de la retroalimentación de la IA para un aprendizaje por refuerzo estable

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Sin embargo, este método a menudo enfrenta inconsistencias de juicio que pueden desestabilizar el aprendizaje por refuerzo. Si bien investigaciones anteriores se han centrado en la precisión de los juicios, la cuestión crítica de la coherencia lógica, especialmente cuestiones como los ciclos de preferencia, no se ha abordado por completo. Para llenar este vacío, presentamos un marco integral diseñado para detectar y resolver sistemáticamente estas inconsistencias durante el proceso de capacitación en aprendizaje por refuerzo. Nuestro marco incluye dos contribuciones principales: primero, la Tasa de Detección de Conflictos (CDR), una nueva métrica que cuantifica los conflictos de juicio, y segundo, Deconflicted Graph Rewards (DGR), un marco que purifica las señales eliminando ciclos antes de la optimización de políticas. DGR construye gráficos de preferencias a partir de los juicios iniciales, los transforma en gráficos acíclicos dirigidos (DAG) libres de conflictos y genera una señal de recompensa lógicamente coherente que es compatible con cualquier optimizador de políticas. Los resultados experimentales muestran que nuestro marco mejora significativamente la estabilidad del entrenamiento y el rendimiento del modelo en comparación con líneas de base sólidas, estableciendo la coherencia lógica como una dimensión crucial y ahora manejable de la retroalimentación de la IA.

Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web