Optimización de políticas aprendibles desde la teoría de juegos para la racionalización de la autoexplicación centrada en datos

Resumen: La racionalización, un marco centrado en datos, tiene como objetivo construir modelos que se explican por sí mismos para explicar el resultado de la predicción generando un subconjunto de piezas de datos de entrada inteligibles para los humanos. Se trata de un modelo de juego cooperativo en el que un generador genera las partes de la entrada más inteligibles para los humanos (es decir, fundamentos), seguido de un predictor que hace predicciones basadas en estos fundamentos generados. Los métodos de racionalización convencionales suelen imponer restricciones mediante términos de regularización para calibrar o penalizar la generación no deseada. Sin embargo, estos métodos sufren un problema llamado colapso de modo, en el que el predictor produce predicciones correctas pero el generador genera consistentemente fundamentos con patrones colapsados. Además, los estudios existentes suelen diseñarse por separado para patrones colapsados específicos, sin una consideración unificada. En este artículo, revisamos sistemáticamente la racionalización cooperativa desde una perspectiva novedosa de la teoría de juegos e identificamos la causa fundamental de este problema: el generador ya no tiende a explorar nuevas estrategias para descubrir fundamentos informativos, lo que en última instancia lleva al sistema a converger a un equilibrio de juego subóptimo (predicciones correctas versus fundamentos colapsados). Para resolver este problema, proponemos un enfoque novedoso, la RATionalización orientada a la optimización de políticas de teoría de juegos (PORAT), que introduce progresivamente intervenciones de políticas para abordar el equilibrio del juego en el proceso de juego cooperativo, guiando así el modelo hacia un estado de solución más óptimo. Analizamos teóricamente la causa de tal equilibrio subóptimo y demostramos la viabilidad del método propuesto. Además, validamos nuestro método en nueve conjuntos de datos del mundo real ampliamente utilizados y dos configuraciones sintéticas, donde PORAT logra mejoras de rendimiento de hasta un 8,1% con respecto a los métodos de última generación existentes.

Publicado originalmente en export.arxiv.org el 15 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Toma de decisiones aumentadas de recuperación: un marco de criterios múltiples basado en requisitos para el soporte de decisiones estructuradas

Contaminación de datos de tiempo de búsqueda

Agentes centinela para AI de agente segura y confiable en sistemas de múltiples agentes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido