企业AI蓝图:构建可扩展的AI解决方案
目录
- 🤖 AI的可扩展性:挑战与解决方案
- 1.1 AI在企业中的角色演变
- 1.2 机器学习模型的挑战
- 1.3 ML Ops:构建可扩展AI的蓝图
- 🛠️ 构建数据管道:为模型提供基础
- 🧰 选择合适的工具和框架:快速建模
- 🚀 模型部署与更新:保持灵活性与稳定性
- 📊 模型监控:持续交付价值
- 💡 创新与稳定性的平衡:构建AI工厂
- 🔄 组织架构与文化转变:驱动企业发展
🤖 AI的可扩展性:挑战与解决方案
在过去的视频中,我谈到了企业流程是组织的生命线,以及为什么你应该以正确的方式对其进行建模。只有当我们充分了解我们的流程时,我们才能更好地改进它们,为客户提供可能是指数级的价值。但是,AI的普遍挑战在于,在提供可扩展的生产级解决方案方面存在困难。每当我们想创建一个机器学习模型时,似乎都是从头开始构建一切:搜索数据、尝试不同的模型、以不同的方式部署它们,对模型的监控策略也是一团乱麻。这是因为自从AI进入舞台以来,每个部门都在尝试使用这项技术进行创新,但在这个过程中,常常会启动一些小型机器学习项目,往往不会投入生产。下一个项目又重新开始循环。问题在于我们没有企业范围的系统化方法来构建和部署可扩展的AI。这就是机器学习运营或ML Ops发挥重要作用的地方。首先让我们简要地看一下软件开发。我们已经做了几十年了,经历了许多迭代。我们从最初的临时性发展,就像现在AI的状况一样,编写了臃肿的、用瀑布式开发方法编写的代码。现在我们已经发展成为一个稳定的DevOps学科。现在我们的代码是模块化和面向对象的,使用敏捷方法和相应成熟的部署方法。如今的DevOps为我们提供了诸如CI/CD或持续集成、持续交付等框架,通过这些框架,我们可以以极小的风险部署代码数百次。我们可以将这些相同的DevOps教训应用于ML Ops。当然,这两者之间存在一些重要的区别。软件模块是确定性的,换句话说,我们知道它的工作逻辑,这使得理解系统行为变得容易。另一方面,机器学习模型是概率性的,因为它们基于对数据进行建模,没有明确的逻辑。尽管答案通常是正确的,但通常很难理解系统的行为。作为类比,一个在股价低于某一阈值时发送警报的系统是确定性的,但一个确定何时卖出股票的系统是概率性的。软件推动业务,因此许多公司都有一个由基础设施和应用程序组成的IT部门,这些应用程序建立在其之上,数据恰好用于运行这些应用程序。而对于AI,我们有两个更重要的组成部分,它们明显不同。一个是数据,作为学习概率模式的手段,第二个是伴随的ML技术。许多公司仍在努力弄清楚这些组件在IT中的定位。默认情况下,它们正在最终落入部门孤立的困境,这对长期来说是不利的。那么ML Ops应该是什么样的呢?首先,我们必须掌握构建模型所需的数据。许多数据科学家将80%的时间花在定位、筛选和清理数据上,甚至在考虑将其用于构建机器学习模型之前。相反,我们需要一个管道,使数据科学家能够更轻松地探索数据中所包含的价值。接下来,我们应该组装一组工具和框架,以快速构建模型。有许多工具可供选择,无论是通过供应商进行内部部署还是通过云提供商作为服务提供。我们可以在企业范围内选择合适的标准化工具集,使这个环境稳定而可预测。然后我们有了部署阶段,模型被部署到生产环境中。机器学习模型必须比传统软件更频繁地进行更新和重新部署。管理不同的模型版本及其所需的数据非常重要,因为模型可能随着时间的推移而发生变化,这是由于基础数据可能发生变化所导致的,这就是所谓的模型漂移。因此,我们需要监控这些模型