Detección de la autoconservación intrínseca e instrumental en agentes autónomos: el protocolo unificado de interés de continuación

Resumen: Probamos si los agentes con objetivos de continuación terminales (Tipo A) producen estados latentes con mayor entropía de entrelazamiento que los agentes cuya continuación es meramente instrumental (Tipo B). Un mayor entrelazamiento refleja un acoplamiento estadístico entre particiones más fuerte.

Leer más →

Comentarios desactivados en Detección de la autoconservación intrínseca e instrumental en agentes autónomos: el protocolo unificado de interés de continuación

DIVE: Ampliación de la diversidad en la síntesis de tareas agentes para el uso de herramientas generalizables

Resumen: Trabajos recientes sintetizan tareas agentes para LLM que utilizan herramientas posteriores a la capacitación, pero una generalización sólida bajo cambios en tareas y conjuntos de herramientas sigue siendo un desafío abierto. Esta fragilidad la atribuimos a una diversidad insuficiente en las tareas sintetizadas.

Leer más →

Comentarios desactivados en DIVE: Ampliación de la diversidad en la síntesis de tareas agentes para el uso de herramientas generalizables

El yo artificial: caracterizando el panorama de la identidad de la IA

Resumen: Muchas suposiciones que sustentan los conceptos humanos de identidad no se aplican a mentes mecánicas que pueden copiarse, editarse o simularse. Argumentamos que existen muchos límites de identidad coherentes diferentes (por ejemplo, instancia, modelo, persona), y que estos implican diferentes incentivos, riesgos y normas de cooperación.

Leer más →

Comentarios desactivados en El yo artificial: caracterizando el panorama de la identidad de la IA

Fin del contenido

No hay más páginas por cargar