En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Aprendizaje de refuerzo simbólico constructivo a través de la lógica intuicionista e inferencia de cadena de objetivos

Aprendizaje de refuerzo simbólico constructivo a través de la lógica intuicionista e inferencia de cadena de objetivos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Introducimos un nuevo marco de aprendizaje y planificación que reemplaza la optimización tradicional basada en recompensas con inferencia lógica constructiva. En nuestro modelo, las acciones, las transiciones y los objetivos se representan como proposiciones lógicas, y los ingresos de la toma de decisiones mediante la construcción de pruebas constructivas bajo lógica intuitionista. Este método garantiza que las transiciones y políticas estatales se acepten solo cuando se respaldan por condiciones previas verificables: evita el ensayo y error probabilístico a favor de la validez lógica garantizada. Implementamos un agente simbólico que opera en un mundo de cuadrícula estructurado, donde alcanzar una meta requiere satisfacer una cadena de subggoals intermedios (por ejemplo, recolectar claves para abrir puertas), cada una gobernada por restricciones lógicas. A diferencia de los agentes de aprendizaje de refuerzo convencionales, que requieren una exploración extensa y sufren transiciones inseguras o inválidas, nuestro agente constructivo construye un plan probablemente correcto a través del encadenamiento de objetivos, el seguimiento de condiciones y la acumulación de conocimiento. La comparación empírica con Q-Learning demuestra que nuestro método logra una seguridad perfecta, un comportamiento interpretable y una convergencia eficiente sin acciones inválidas, destacando su potencial de planificación segura, cognición simbólica e IA confiable. Este trabajo presenta una nueva dirección para el aprendizaje de refuerzo, no en la optimización numérica, sino en la teoría de la lógica y la prueba constructiva.

Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web