有效机器学习项目的十大成功因素

目前近十年来,我一直参与管理创新中心,创新计划和广泛的行业合作,以设想,开发和提出基于机器学习(ML)在石油和可再生能源的客户的新解决方案。我为几十年前开创了人工智能技术的公司。使用数字解决方案,如可扩展的云计算,事物互联网和下一代数据生态系统,将数据带入我们的指尖,ML最终有肌肉在大联盟中取得成功。
每一天,我们都在看到基于ML的概念验证(POC)和实验部署在勘探、油田开发、钻井、生产、碳减排和可再生能源解决方案中取得的充满希望和鼓舞人心的结果。与此同时,许多公司都在努力进行有希望的实验,以期在整个组织或多家公司之间产生积极影响。这就是我们通常所说的“企业部署”或“企业级技术”。
我们经常看到许多组织中重复的同样的错误,我们已经让我们的公平分享了自己。因此,我希望通过行业协作项目总结从我们自己的组织内部的数十个项目的执行中汲取的一些经验教训。建议可能看起来很明显,但现实是他们经常被侵犯,导致失败或次优效果。

  1. 了解您的项目目标

    听起来明显吗?但事实并非如此。在寻求开始数字化的过程中,我们看到许多公司在启动ML和人工智能(AI)项目时,没有明确定义他们要解决的问题或成功的构成要素。

    我们始终坚持通过从业务目标和问题声明开始适当的项目框架。然后我们深入了解高级要求和成功因素。这些通常属于三个桶:效率提升,改进的结果和工作流程和平台集成。了解目标确保我们拥有第一(或用户第一或客户至上)的商业,而不是技术首先做法。这也可以确保我们寻找最佳算法,最佳体系结构,以及在手中的问题的最佳工具,并且我们可以在找到更好的解决方案时快速学习和调整我们的方法。

  2. 保持灵活性和自由度

    等一下。我只是说,项目的适当框架是至关重要的。我们如何在保持必要的灵活性和自由之间取得平衡?事实证明这并不难。项目框架应该定义我们正在解决的问题,以及我们如何知道我们已经成功地解决了这个问题。我们不应该开药方。我们不应该规定一个特定的算法,ML方法或设计。这使得团队能够快速尝试不同的方法来选择最好的方法,或者在出现更好的想法时改变进程。对于POC来说,最好的结果通常是在项目开始时没有预想到的结果。

  3. 建立一个具有合适技能组合的团队

    新的ML解决方案需要广泛的能力。首先是领域专业知识、数据科学专业知识和软件开发专业知识。开发解决方案并在更广泛的工作流程和数字平台上集成解决方案,需要具备额外的能力,如用户体验设计和数字软件架构。如果没有领域的专业知识,数据科学专业知识几乎是无用的,而仅仅是领域的专业知识还不足以形成好的ML解决方案。关键是把合适的人聚在一起。

    伟大的领域专家可以成为伟大的数据科学家吗?我们的经验是肯定的。ML正在民主化,今天有工具和方法,域专家可以在没有编程技能的情况下实施基本mL。在任何深度,域科学家通常都有正确的背景和正确的学习和成功掌握数据科学的能力。

    对于实验和POC发展,该团队应该是“披萨大小”,以保持充分的灵活性和紧迫感。这通常意味着最多八人。对于更大的努力,子项目或团队不应超过八个人仍然是一个很好的经验法则。

  4. 使用现实数据集进行验证解决方案

    在能源行业,我们使用复杂现实的数字表现。我们处理动态电网,复杂的地下地质,具有挑战性的物流和在困难地点的操作。因此,我们测试驱动我们的算法和ML解决方案,使用逐渐提高复杂性和覆盖面的真实数据是很重要的。访问适当的数据集通常是开始一个项目的先决条件。

    对于ML的所有应用,重要的是不要低估定位,质量保证,清理和准备ML的数据集所需的努力。幸运的是,这是工具和自动化的主要焦点区域,并随着时间的推移而改善。

  5. 将最佳数据科学与最佳域名专业知识结合起来

    数据科学全部是关于数据驱动分析,让数据进行谈话。然而,在能源产业中,复杂性往往很高,数十年的研发投资导致了精致的技术和科学基线。我们看到ML的巨大潜力;但是,我们在纯粹的数据驱动项目中看到了很少的成功。实际潜力与ML的力量相结合的域专业知识和经过验证的物理模型。域科学的数据科学正在实现绩效和结果的步骤改进。先前已达到性能高原的研究领域现在可以通过将ML嵌入其方法来看看性能提升。大学有很好的计划,用于教育新一代数据科学家,但它对数据科学的领域专家同样重要。这允许更好的协作和更好的解决方案。

  6. 需求证明

    ML和AI是潮流、有前途和令人兴奋的。但这绝不应该被视为开发平庸科学或推动未经证实的解决方案的免费通行证。我们必须开放新方法和解决方案,我们还必须要求同样严格的解决方案基于ML作为传统的技术,我们将会做在我们部署它们庞大的用户基础,购买商业解决方案,或关键决策的结果为基础。我们建议对科学论文进行严格的测试和验证、严格的同行评审和严格的验证。

  7. 扩展你的算法的范围

    数据驱动的ML方法的一个基本挑战是,即使最有前途的POC原型也只能在非常有限的上下文中成功应用。例如,这可以是一个具有独特和显著特征的非常具体的地理区域。有时,在相关的新数据集上训练ML“大脑”就足够了,以扩展范围,但通常情况下,整个ML结构和学习算法必须改变,以支持多种上下文,并使更广泛的采用。这可能非常耗时,需要大量的开发。在评估早期结果和计划下一步时,认识到这一挑战是很重要的。在某些情况下,我们可能需要多种算法和模型的组合,以覆盖广泛的应用。

  8. 与他人合作以获得更快更好的结果

    公司、部门和个人有时非常致力于并保护特定的算法、方法、应用或理念。然而,竖井思维和“单枪匹马”的哲学通常不适合我们行业中开发新的ML解决方案。我们建议在个人、部门、公司和组织之间合作。通过联合起来,分享领域、数据和技术开发方面的专业知识,我们通常可以一起做得更好。ML溶液可能不是一刀切的。有很多好的计划,使用可用的解决方案并与行业协作可以帮助您更快地实现目标,并获得更好的结果。

    什么时候应该购买,什么时候应该建造?在我的世界里,只要有可能,购买优先于建设。如果市场上已经有解决您业务需求的现成解决方案,这将为您节省时间、金钱和精力;很多时间,很多金钱,还有很多努力。

    那么,什么时候你应该考虑自己构建解决方案,还是与他人合作?有时您需要填补技术提供的空白,获取独特的能力和经验,并补充和扩展商业解决方案,以应对独特的挑战。构建还有助于教育您的组织了解ML技术的可能性和局限性,这同样可以帮助改进您的数字战略。在您的工作流程和数字生态系统中集成ML解决方案可能是必要的。最后,数据科学对于复杂情况的特别分析或危机管理是一个有价值的工具。

  9. 开放标准

    在数字化运动的初期,每个石油公司、技术公司甚至新的中间件公司都开始开发他们自己的专有数据基础设施。业界很快意识到这将极大地减缓数字化转型的进程,现在我们有了快速移动的标准化项目,如OSDU™(Open Subsurface Data Universe)。我们建议以行业标准平台为基础,将新的解决方案与行业工作流和技术集成在一起,并为未来保持完全的灵活性。

  10. 让每个人都使用你的解决方案

    新ML解决方案的真相是,需要大量的投资和努力,以便从PoC到广泛采用。这可能涉及一系列POC原型逐渐增加算法的范围和覆盖,性能增强,与工作流和平台集成,安全性,可用性,验证,部署和未来维护和改进。在每一步中,我们为最终用户提供实践经验,提高算法并在结果中构建信任。我们自己的ML解决方案通常通过了一系列具有许多能源公司的创新项目;每个都给桌子带来一些新东西;并且每个都将解决方案带到一个新的水平。开放行业平台的建设对于保持高发展速度至关重要,并确保在快速移动的世界中的集成和未来灵活性

  11. 作者信息:Morten在挪威和国际上为斯伦贝谢的软件开发工作了20多年。在早期,他为公司推出了敏捷软件开发实践,并在全球协调下管理多学科项目。他管理着位于奥斯陆、斯塔万格和卑尔根的软件开发中心,致力于开发行业领先技术,如Petrel* E&P软件平台和Ocean*开放软件开发框架。在2017年回到挪威之前,他在加州硅谷建立并领导了软件技术创新中心(STIC),致力于斯伦贝谢产品和服务的数字化转型。在他目前的角色中,Morten负责全球数字创新项目,与关键战略客户合作,加速创新和斯伦贝谢数字技术的采用。

Morten Jensen.

Morten Jensen.

全球数字创新经理

有用的链接:

数字创新实验室

数字转型咨询