Resumen: Si los sistemas de IA coinciden o exceden las capacidades humanas en una amplia gama de tareas, puede ser difícil para los humanos juzgar eficientemente sus acciones, lo que dificulta usar la retroalimentación humana para dirigirlos hacia rasgos deseables. Una solución propuesta es aprovechar otro sistema sobrehumano para señalar fallas en las salidas del sistema a través de un debate. Este documento describe el valor del debate para la seguridad de la IA, así como los supuestos y la investigación adicional requerida para hacer que el debate funcione. Lo hace dibujando un “ caso de seguridad de alineación ”, un argumento de que un sistema de IA no tomará de forma autónoma medidas que podrían conducir a daños atroces, a pesar de poder hacerlo. El boceto se centra en el riesgo de un agente de AI R & D dentro de una compañía de IA Sabotaging Research, por ejemplo, produciendo resultados falsos. Para evitar esto, el agente está capacitado a través del debate, sujeto a garantías de exploración, para enseñar al sistema a ser honesto. La honestidad se mantiene a lo largo de la implementación a través de la capacitación en línea. El caso de seguridad se basa en cuatro afirmaciones clave: (1) El agente se ha vuelto bueno en el juego de debate, (2) un buen rendimiento en el juego de debate implica que el sistema es mayormente honesto, (3) el sistema no será significativamente menos honesto durante el despliegue, y (4) el contexto de implementación es tolerante a algunos errores. Identificamos problemas de investigación abiertos que, si se resuelven, podrían hacer que este sea un argumento convincente de que un sistema de IA es seguro.

Publicado Originalme en rss.arxiv.org El 7 de mayo de 2025.
Ver Fuente Original

Un boceto de casos de seguridad de alineación basado en el debate

admin

HealthTech, Mexico Tech Week 2025

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Moverse demasiado rápido, arriesgando el retroceso sistémico

Los gases de efecto invernadero que no estamos contactando

Geolaux: un punto de referencia para evaluar el rendimiento de la geometría de MLLMS en problemas de larga duración que requieren líneas auxiliares

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido