Resumen:El despliegue de agentes autónomos de IA en los mercados de derivados ha ampliado una brecha práctica entre la calibración del modelo estático y los resultados de cobertura obtenidos. Presentamos dos marcos de aprendizaje por refuerzo, un novedoso enfoque de aprendizaje por replicación de precios de opciones (RLOP) y una extensión adaptativa de Q-learner en Black-Scholes (QLBS), que priorizan la probabilidad de déficit y alinean los objetivos de aprendizaje con una cobertura sensible a las desventajas. Utilizando las opciones SPY y XOP listadas, evaluamos modelos utilizando distribuciones de resultados de cobertura delta de trayectoria realizada, probabilidad de déficit y medidas de riesgo de cola, como el déficit esperado. Empíricamente, RLOP reduce la frecuencia de déficit en la mayoría de los sectores y muestra las mejoras más claras del riesgo de cola en estrés, mientras que el ajuste de volatilidad implícita a menudo favorece los modelos paramétricos pero predice mal el desempeño de la cobertura después de costos. Este marco de RL consciente de la fricción respalda un enfoque práctico para la gestión autónoma del riesgo de derivados a medida que los sistemas de negociación mejorados por IA escalan.
Publicado originalmente en export.arxiv.org el 9 de marzo de 2026.
Ver fuente original
