DeltaLogic: Las ediciones mínimas de premisas revelan fallas en la revisión de creencias en modelos de razonamiento lógico

Resumen: Los puntos de referencia de razonamiento generalmente evalúan si un modelo deriva la respuesta correcta a partir de un conjunto de premisas fijas, pero subestiman una capacidad estrechamente relacionada que importa en entornos dinámicos: la revisión de creencias bajo un cambio mínimo de evidencia. Presentamos DeltaLogic, un protocolo de transformación de referencia que convierte ejemplos de razonamiento en lenguaje natural en breves episodios de revisión. Cada episodio primero solicita una conclusión inicial bajo las premisas P, luego aplica una edición mínima {delta}(P) y finalmente pregunta si la conclusión anterior debe permanecer estable o revisarse. Creamos una instancia de DeltaLogic de FOLIO y ProofWriter y evaluamos pequeños modelos de lenguaje causal con puntuación de etiquetas restringida. En un subconjunto completo de evaluación de Qwen de 30 episodios, un razonamiento inicial más sólido aún no implica un comportamiento de revisión más fuerte: Qwen3-1.7B alcanza una precisión inicial de 0,667 pero solo 0,467 de precisión de revisión, con una inercia que aumenta a 0,600 en los episodios donde la etiqueta dorada debería cambiar, mientras que Qwen3-0.6B colapsa en una abstención casi universal. Allí, Qwen3-4B conserva el mismo patrón de falla inercial (0.650 inicial, 0.450 revisado, 0.600 inercia), mientras que Phi-4-mini-instruct es sustancialmente más fuerte (0.950 inicial, 0.850 revisado) pero aún exhibe una abstención no trivial y una inestabilidad de control. Estos resultados sugieren que la competencia lógica bajo premisas fijas no implica una revisión disciplinada de las creencias después de las ediciones de la evidencia local. Por lo tanto, DeltaLogic apunta a una capacidad de razonamiento distinta y prácticamente importante que complementa la inferencia lógica existente y los puntos de referencia de actualización de creencias.

Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: ADN AI de Google Deepmind y el impacto de las ondas de calor en la red

Los científicos británicos dieron £ 50 millones para explorar las técnicas de atenuación solar para combatir el cambio climático

Una taxonomía naciente del aprendizaje automático en la automatización inteligente de procesos robóticos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido