Resumen: La inteligencia artificial y el aprendizaje automático se utilizan cada vez más para la previsión, la optimización y el diseño de políticas en el sector energético, pero no existe un marco estandarizado para evaluar si estos sistemas razonan correctamente. Las prácticas de validación actuales se centran en la precisión predictiva o la eficiencia computacional, dejando sin probar la integridad lógica de las conclusiones analíticas. Este estudio presenta el Analytical Reliability Benchmark (ARB), un marco reproducible que cuantifica la confiabilidad del razonamiento en grandes modelos de lenguaje aplicados al análisis de sistemas energéticos. El punto de referencia integra cinco submétricas: precisión, confiabilidad del razonamiento, disciplina de incertidumbre, coherencia de políticas y transparencia, y evalúa el desempeño del modelo en escenarios deterministas, probabilísticos y epistémicos utilizando conjuntos de datos tecnoeconómicos abiertos (NREL ATB 2024, DOE H2A/H2New, IEA WEO 2024). Se probaron cuatro modelos fronterizos (GPT-4/5, Claude 4.5 Sonnet, Gemini 2.5 Pro, Llama 3 70B) en condiciones fácticas y reglamentarias idénticas. Los resultados muestran que la confiabilidad del razonamiento se puede medir objetivamente. GPT-4/5 y Claude 4.5 Sonnet lograron un razonamiento consistente y compatible con las políticas (índice de confiabilidad analítica superior a 90), Gemini 2.5 Pro demostró una estabilidad moderada y Llama 3 70B se mantuvo por debajo de los umbrales profesionales. La validación estadística confirmó que estas diferencias son significativas y reproducibles. El ARB establece el primer método cuantitativo en la literatura sobre energía para verificar el razonamiento causal, probabilístico y basado en políticas en sistemas de inteligencia artificial, proporcionando un marco de referencia para aplicaciones analíticas confiables y transparentes en la transición energética global.
Publicado originalmente en export.arxiv.org el 23 de octubre de 2025.
Ver fuente original
