从ML到可解释的ML-如何适用于钻井工具

想象一下,您在申请研究生院的申请中工作了数周。根据您的凭据,您确信您的入学是一项完成的交易。但是,令您惊讶的是,招生部门给您发送电子邮件,说您没有晋级。电子邮件中的小印刷品说,从今年开始,录取决策依靠同一大学研究人员开发的“基于革命性ML的流程” 100%。

射击!现在,除了您的失望之外,您有很多问题 - 该机器学习(ML)工具的决定如何?与其他申请人相比,您的弱点是什么?您可以改善明年的机会吗?

随着ML模型越来越多地在整个行业和社会中找到自己的方式,因此越来越需要证明这些模型如何以及为什么提供特定结果的合理性。我很容易理解为什么我们更喜欢模型,除了产生准确的预测外,这些预测还可以证明或“解释”。与基于物理的模型相反,ML模型主要是“黑匣子”,因此解释其预测极具挑战性。根据我的经验,当解释模型成果时,数据科学家与主题专家(SME)之间的合作变得更加生产力,并且这些解释与中小企业的直觉与建模过程中的信任和结果相符,并且结果急剧增加。

幸运的是,在过去的几年中,ML/AI社区开发了解释模型预测的方法,从而引起了可解释的AI(XAI)研究领域。Shap(Shapley添加说明)是一种流行的XAI方法,具有坚实的数学基础和有效的实现。接下来,我将成功地描述Shap的成功应用,以解释广泛使用的Schlumberger钻井工具的机械事件。

泥浆越低,事件概率越高...还是?

事件诊断算法是在我们的一些中小企业与美国数据科学家之间的共同努力中开发的,以检测和对五个不同类别的事件进行分类,包括连续和间歇性事件。算法开发依赖于我们数据存储中数千个时间序列的rundata。这些时间序列的一部分是由涵盖所有事件类别的不同中小型企业手动“标记”的。由于标记该卷的样本所需的时间是不切实际的,因此采取了两个创新的步骤:(1)根据时间序列可视化工具将标签工作流放在一起,(2)要标记的样品数量基本上是基本的。通过实施主动学习 - 降低了ML技术,以迭代选择/优先考虑样本。这些步骤将标签时间减少了约80%。从这些样品中开发和验证的诊断算法涉及由少数传感器读数触发的复杂逻辑,事实证明非常准确。

一旦部署了该诊断算法,我们的一些关键施伦伯格(Schlumberger)利益相关者非常热衷于“解释”钻孔参数(包括不同的泥浆特性,流速和井眼温度)的事件。为此,诊断算法对约15,000次运行提供的检测结果被用作“标记事件”,以训练ML模型以输出事件概率作为钻探参数的函数。后来使用Shap解释了该模型。

图1总结了我们的诊断算法在特定事件类别中分类的3,000多个案例的形状结果。泥密度是确定此事件类别的最大因素,其次是钻孔压力,最高钻孔温度等。例如,颜色编码意味着泥密度的值越高(即,越接近点的红色),事件概率越高(对X轴模型输出的影响)。另一方面,例如,泥水含量的值越低,事件概率越高。

可解释的AI- Shap值-Schlumberger数字博客

图1形状值。

在图2中,蓝条显示了事件速率,其量的函数是每加仑磅(lbm/galus)测得的泥密度。该均匀的速率是通过我们的诊断算法计算出的10个间隔(垃圾箱)的泥浆密度,范围从最低到最高的LBM/Galus。附着在每个蓝色条的右侧的条表示这些情况的主要驱动因素,即它们捕获了与每个泥密度垃圾箱相对应的这些事件的主要贡献者。从图表中可以明显看出,四个与高密度泥浆相对应的垃圾箱,主要驱动器是泥浆本身。对于低PPG泥浆,领先因素要多样化,包括钻孔压力和平均流量。

根据图2的结果,我们的运营完整性组织最近发布了现场通信,并提供了有关高泥密度的工具配置的最新建议。

总而言之,我要强调的是,可解释的AI可以并且应应用于整个行业的许多其他案例,以建立使用ML模型并提高其效率的信任。

可解释的AI-泥密度的事件速率-Schlumberger数字博客

图2事件速率与泥密度相比。

作者信息:Daniel Viassolo是休斯顿Schlumberger井建立部的数据分析经理和首席科学家。他是预后和健康管理,机器学习,优化,控制和动态系统的技术专家。丹尼尔(Daniel)撰写了27份专利和40多篇技术论文,同时在跨石油和天然气,可再生能源和常规发电的各种应用程序中进行了不同的应用。此外,丹尼尔(Daniel)担任线路经理,技术顾问和计划/项目经理的丰富经验。他拥有普渡大学的博士学位,并参加了德克萨斯农工大学的商业领导力培训。
Daniel Viassolo -Schlumberger数字博客

丹尼尔·维亚索洛(Daniel Viassolo)

休斯顿Schlumberger井建立司的数据分析经理和首席科学家。

LinkedIn个人资料

相关产品和服务

18luck mx

18luck.cub

Schlumberger企业数据管理解决方案