Resumen: permitir que las redes neuronales aprendan limitas complejas y cumplir el razonamiento simbólico es un desafío crítico. Pinchar esta brecha a menudo requiere guiar la distribución de salida de la red neuronal para acercarse a las limitaciones simbólicas. Si bien los modelos de difusión han mostrado una notable capacidad generativa en varios dominios, empleamos la poderosa arquitectura para realizar el aprendizaje neuroimbólico y resolver rompecabezas lógicos. Nuestra tubería basada en difusión adopta una estrategia de entrenamiento en dos etapas: la primera etapa se centra en cultivar habilidades de razonamiento básico, mientras que el segundo enfatiza el aprendizaje sistemático de las limitaciones lógicas. Para imponer restricciones difíciles en los resultados neuronales en la segunda etapa, formulamos el razonador de difusión como un proceso de decisión de Markov e innovando innovadoras con un algoritmo mejorado de optimización de políticas proximales. Utilizamos una señal de recompensa basada en reglas derivada de la consistencia lógica de los resultados neurales y adoptamos una estrategia flexible para optimizar la política del razonador de difusión. Evaluamos nuestra metodología en algunos puntos de referencia de razonamiento simbólico clásico, incluidos Sudoku, laberinto, pasos y aprendizaje de preferencias. Los resultados experimentales demuestran que nuestro enfoque logra una precisión sobresaliente y una consistencia lógica entre las redes neuronales.
Publicado Originalme en export.arxiv.org El 24 de agosto de 2025.
Ver Fuente Original