CausalReasoningBenchmark: un punto de referencia del mundo real para la evaluación separada de la identificación y estimación causal

Resumen:Muchos puntos de referencia para la inferencia causal automatizada evalúan el rendimiento de un sistema basándose en un único resultado numérico, como un efecto de tratamiento promedio (ATE). Este enfoque combina dos pasos distintos en el análisis causal: identificación (formular un diseño de investigación válido bajo supuestos establecidos) y estimación (implementar ese diseño numéricamente sobre datos finitos). Presentamos CausalReasoningBenchmark, un punto de referencia de 173 consultas en 138 conjuntos de datos del mundo real, seleccionados a partir de 85 artículos de investigación revisados por pares y cuatro libros de texto de inferencia causal ampliamente utilizados. Para cada consulta, un sistema debe producir (i) una especificación de identificación estructurada que nombre la estrategia, el tratamiento, el resultado y las variables de control, y todos los elementos específicos del diseño, y (ii) una estimación puntual con un error estándar. Al calificar estos dos componentes por separado, nuestro punto de referencia permite un diagnóstico granular: distingue las fallas en el razonamiento causal de los errores en la ejecución numérica. Los resultados de referencia con un LLM de última generación muestran que, si bien el modelo identifica correctamente la estrategia de alto nivel en el 84 % de los casos, la exactitud total de la especificación de identificación cae a solo el 30 %, lo que revela que el cuello de botella radica en los detalles matizados del diseño de la investigación más que en el cálculo. CausalReasoningBenchmark está disponible públicamente en Hugging Face y está diseñado para fomentar el desarrollo de sistemas automatizados de inferencia causal más sólidos.

Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Viernes de vídeo: robots autónomos aprenden haciendo en esta fábrica

Argumentación basada en reglas de puesta a tierra utilizando DataSalog

Jornada Oportunidades en Industria en Horizonte Europa. Castilla y León

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido