En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Un boceto de casos de seguridad de alineación basado en el debate

Un boceto de casos de seguridad de alineación basado en el debate

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Si los sistemas de IA coinciden o exceden las capacidades humanas en una amplia gama de tareas, puede ser difícil para los humanos juzgar eficientemente sus acciones, lo que dificulta usar la retroalimentación humana para dirigirlos hacia rasgos deseables. Una solución propuesta es aprovechar otro sistema sobrehumano para señalar fallas en las salidas del sistema a través de un debate. Este documento describe el valor del debate para la seguridad de la IA, así como los supuestos y la investigación adicional requerida para hacer que el debate funcione. Lo hace dibujando un “ caso de seguridad de alineación ”, un argumento de que un sistema de IA no tomará de forma autónoma medidas que podrían conducir a daños atroces, a pesar de poder hacerlo. El boceto se centra en el riesgo de un agente de AI R & D dentro de una compañía de IA Sabotaging Research, por ejemplo, produciendo resultados falsos. Para evitar esto, el agente está capacitado a través del debate, sujeto a garantías de exploración, para enseñar al sistema a ser honesto. La honestidad se mantiene a lo largo de la implementación a través de la capacitación en línea. El caso de seguridad se basa en cuatro afirmaciones clave: (1) El agente se ha vuelto bueno en el juego de debate, (2) un buen rendimiento en el juego de debate implica que el sistema es mayormente honesto, (3) el sistema no será significativamente menos honesto durante el despliegue, y (4) el contexto de implementación es tolerante a algunos errores. Identificamos problemas de investigación abiertos que, si se resuelven, podrían hacer que este sea un argumento convincente de que un sistema de IA es seguro.

Publicado Originalme en rss.arxiv.org El 7 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web