En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->DeFAb: un punto de referencia verificable para la abducción anulable en modelos de cimentación

DeFAb: un punto de referencia verificable para la abducción anulable en modelos de cimentación

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Un solucionador lógico basado en reglas resuelve cada instancia en nuestro punto de referencia en menos de 50 microsegundos con 100% de precisión; el mejor modelo de lenguaje de frontera alcanza el 65% en el mejor de los casos y cae al 23,5% bajo una evaluación sólida de renderizado (en el peor de los casos, en cuatro renderizados de superficie). Presentamos DeFAb (Defeasible Abduction Benchmark), un conjunto de datos y un canal de generación que convierte cuatro décadas de bases de conocimiento financiadas con fondos públicos en instancias formalmente fundamentadas para la abducción anulable: construyendo hipótesis que expliquen las anomalías anulando los incumplimientos y al mismo tiempo preservando expectativas no relacionadas. Debido a que cada hipótesis debe pasar controles de tiempo polinómico para determinar su derivación válida, conservatividad y minimalidad, DeFAb hace del rigor lógico el instrumento para medir la creatividad y el razonamiento teórico, puntuando la construcción disciplinada de revisiones teóricas en lugar de una prosa fluida pero que destruye teorías. El canal combina jerarquías taxonómicas (OpenCyc, YAGO, Wikidata) con gráficos de propiedades de comportamiento (ConceptNet, UMLS) para producir más de 372.648 instancias en 33,75 millones de reglas materializadas de 18 fuentes, en tres niveles con estándares de oro verificables en tiempo polinomial. Los cuatro modelos de frontera no internalizan de manera confiable el razonamiento anulable: la precisión de nivel 2 de renderizado robusto es del 7,8 al 23,5 %; la variación de la cadena de pensamiento (~36 pp) supera cualquier brecha entre modelos; y un control de contaminación combinado aísla una brecha de Nivel 3 de +19,4 pp. Además, lanzamos DeFAb-Hard (una variante de dificultad de nivel 3 de 235 instancias; mejor modelo 53,3 % frente a 100 % simbólico) y CONJURE (una variante de creatividad transformativa verificada por el kernel de 560 instancias Lean 4/Mathlib cuyas respuestas de oro son definiciones que el kernel de prueba no contenía anteriormente, verificador sin jueces; un piloto no encuentra conceptos nuevos). El mismo verificador también funciona como recompensa exacta por la optimización de preferencias (DPO, RLVR/GRPO). Publicado bajo el MIT en esta URL https.

Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original

admin

Usuario de administración del sitio web