Aprendizaje de refuerzo simbólico constructivo a través de la lógica intuicionista e inferencia de cadena de objetivos

Resumen: Introducimos un nuevo marco de aprendizaje y planificación que reemplaza la optimización tradicional basada en recompensas con inferencia lógica constructiva. En nuestro modelo, las acciones, las transiciones y los objetivos se representan como proposiciones lógicas, y los ingresos de la toma de decisiones mediante la construcción de pruebas constructivas bajo lógica intuitionista. Este método garantiza que las transiciones y políticas estatales se acepten solo cuando se respaldan por condiciones previas verificables: evita el ensayo y error probabilístico a favor de la validez lógica garantizada. Implementamos un agente simbólico que opera en un mundo de cuadrícula estructurado, donde alcanzar una meta requiere satisfacer una cadena de subggoals intermedios (por ejemplo, recolectar claves para abrir puertas), cada una gobernada por restricciones lógicas. A diferencia de los agentes de aprendizaje de refuerzo convencionales, que requieren una exploración extensa y sufren transiciones inseguras o inválidas, nuestro agente constructivo construye un plan probablemente correcto a través del encadenamiento de objetivos, el seguimiento de condiciones y la acumulación de conocimiento. La comparación empírica con Q-Learning demuestra que nuestro método logra una seguridad perfecta, un comportamiento interpretable y una convergencia eficiente sin acciones inválidas, destacando su potencial de planificación segura, cognición simbólica e IA confiable. Este trabajo presenta una nueva dirección para el aprendizaje de refuerzo, no en la optimización numérica, sino en la teoría de la lógica y la prueba constructiva.

Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Ltlzinc: un marco de evaluación comparativa para el aprendizaje continuo y el razonamiento temporal neuro-simbólico

DARA: Asignación de presupuesto de pocas posibilidades en publicidad en línea a través de la toma de decisiones en contexto con LLM optimizados por RL

standict.eu & aioti webinar “Conectando los puntos en el panorama de estándares de computación IoT y Edge en evolución”

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido