Resumen:Muchos puntos de referencia para la inferencia causal automatizada evalúan el rendimiento de un sistema basándose en un único resultado numérico, como un efecto de tratamiento promedio (ATE). Este enfoque combina dos pasos distintos en el análisis causal: identificación (formular un diseño de investigación válido bajo supuestos establecidos) y estimación (implementar ese diseño numéricamente sobre datos finitos). Presentamos CausalReasoningBenchmark, un punto de referencia de 173 consultas en 138 conjuntos de datos del mundo real, seleccionados a partir de 85 artículos de investigación revisados por pares y cuatro libros de texto de inferencia causal ampliamente utilizados. Para cada consulta, un sistema debe producir (i) una especificación de identificación estructurada que nombre la estrategia, el tratamiento, el resultado y las variables de control, y todos los elementos específicos del diseño, y (ii) una estimación puntual con un error estándar. Al calificar estos dos componentes por separado, nuestro punto de referencia permite un diagnóstico granular: distingue las fallas en el razonamiento causal de los errores en la ejecución numérica. Los resultados de referencia con un LLM de última generación muestran que, si bien el modelo identifica correctamente la estrategia de alto nivel en el 84 % de los casos, la exactitud total de la especificación de identificación cae a solo el 30 %, lo que revela que el cuello de botella radica en los detalles matizados del diseño de la investigación más que en el cálculo. CausalReasoningBenchmark está disponible públicamente en Hugging Face y está diseñado para fomentar el desarrollo de sistemas automatizados de inferencia causal más sólidos.
Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original
