El helado no causa ahogamiento: Benchmarking LLMS contra trampas estadísticas en inferencia causal

Resumen: La inferencia causal confiable es esencial para tomar decisiones en áreas de alto riesgo como la medicina, la economía y las políticas públicas. Sin embargo, no está claro si los modelos de idiomas grandes (LLM) pueden manejar una inferencia causal estadística rigurosa y confiable. Los puntos de referencia actuales generalmente implican tareas simplificadas. Por ejemplo, estas tareas solo pueden pedirle a los LLM que identifiquen relaciones causales semánticas o extraen conclusiones directamente de los datos sin procesar. Como resultado, los modelos pueden pasar por alto importantes dificultades estadísticas, como la paradoja o el sesgo de selección de Simpson. Esta supervisión limita la aplicabilidad de los LLM en el mundo real. Para abordar estas limitaciones, proponemos CausalPitFalls, un punto de referencia integral diseñado para evaluar rigurosamente la capacidad de LLM para superar las dificultades de inferencia causales comunes. Nuestro punto de referencia presenta desafíos estructurados en múltiples niveles de dificultad, cada uno combinado con rúbricas de calificación. Este enfoque nos permite medir cuantitativamente las capacidades de razonamiento causal y la confiabilidad de las respuestas de LLMS. Evaluamos modelos utilizando dos protocolos: (1) indicaciones directas, que evalúa el razonamiento causal intrínseco, y (2) la solicitud asistida por código, donde los modelos generan código ejecutable para un análisis estadístico explícito. Además, validamos la efectividad de este juez al comparar su puntuación con las evaluaciones de expertos humanos. Nuestros resultados revelan limitaciones significativas en los LLM actuales al realizar una inferencia causal estadística. El punto de referencia CausalPitFalls proporciona orientación esencial y métricas cuantitativas para avanzar en el desarrollo de sistemas de razonamiento causales confiables.

Publicado Originalme en rss.arxiv.org El 20 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Relevancia, necesidad y utilidad de características: complejidad y algoritmos

Thelma: Evaluación holística basada en tareas de aplicaciones de modelos de lenguaje grande RAG RAG Respuesta

Monitoreo de robustez y justicia individual

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido