Aprendizaje reforzado de modelos de lenguaje grandes para la detección de fraudes con tarjetas de crédito interpretables

Resumen:Las plataformas de comercio electrónico y los proveedores de soluciones de pago enfrentan esquemas de fraude cada vez más sofisticados, que van desde el robo de identidad y la apropiación de cuentas hasta complejas operaciones de lavado de dinero que explotan la velocidad y el anonimato de las transacciones digitales. Sin embargo, a pesar de su promesa teórica, la aplicación de los modelos de lenguaje grande (LLM) para la detección de fraude en contextos financieros del mundo real sigue estando en gran medida sin explotar, y su eficacia práctica en el manejo de datos de transacciones de comercio electrónico de dominios específicos aún no se ha validado empíricamente. Para cerrar esta brecha entre las limitaciones del aprendizaje automático convencional y el potencial sin explotar de los LLM en la detección de fraude, este documento propone un enfoque novedoso que emplea el aprendizaje por refuerzo (RL) para entrenar posteriormente modelos de lenguaje livianos específicamente para tareas de detección de fraude utilizando solo datos de transacciones sin procesar. Utilizamos el algoritmo de optimización de políticas de secuencia de grupo (GSPO) combinado con un sistema de recompensa basado en reglas para ajustar modelos de lenguaje de varios tamaños en un conjunto de datos de transacciones de la vida real proporcionado por una empresa china de soluciones de pago global. A través de este marco de aprendizaje de refuerzo, se alienta a los modelos de lenguaje a explorar diversas señales de confianza y riesgo integradas en los datos textuales de las transacciones, incluidos patrones en la información del cliente, detalles de envío, descripciones de productos e historial de pedidos. Nuestros resultados experimentales demuestran la efectividad de este enfoque, con modelos de lenguaje post-entrenados que logran mejoras sustanciales en la puntuación F1 en los datos de prueba retenidos. Nuestros hallazgos demuestran que las mejoras de rendimiento observadas son atribuibles principalmente al mecanismo de exploración inherente al aprendizaje por refuerzo, que permite a los modelos descubrir nuevos indicadores de fraude más allá de los capturados por las características de ingeniería tradicionales.

Publicado originalmente en export.arxiv.org el 11 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

DMCD: marco semántico-estadístico para el descubrimiento causal

Identificación de la reducción de violín a través de la clasificación de líneas de contorno

Basilio: Aprendizaje simbólico simbólico de mejor acción para las políticas de RL compactas en evolución

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido