云原生AI如何落地到业务场景？红帽专家解读开源新技能智东西（公众号：zhidxcom）作者

文章图片
智东西（公众号：zhidxcom）
作者|ZeR0
编辑|漠影
智东西5月12日报道，在IT领域，云原生、人工智能（AI）是时下最热的概念之一。尽管许多企业心向往之，但并不是每位工程师都能准确地理解“云原生AI”的含义，以及了解如何将它们落地到真实的企业业务场景中。
在4月28日直播的《八点一“课” ，红帽企业开源讲堂》第三期中，红帽资深解决方案架构师赵锡漪对这一话题进行解读，并分享了红帽近些年在AI领域的投入。他还谈到如何使用开放数据中心（OpenDataHub）为AI提供助力、如何通过OpenDataHub在OpenShift中搭建数据科学实验室等话题。

文章图片
为了说明云原生AI的价值，赵锡漪举了个例子，在工业制造领域，过去基本上一个月才能改变一次生产线，现在很多制造企业一个月甚至能造一个工厂，或者工厂生产的产品一个月内完全换成另一种产品，那么几天就要将生产线上所有的机械臂调优优化。此时，工厂需要一种能将AI快速部署到前端的手段。
而云原生中的DevOps特别适合这种场景，因为DevOps或CI/CD场景是持续不断地把从云端设计好的东西传递到生产线上，整个过程无需人参与。

文章图片
因此，现在国家的许多标准会强调软式PRC ，红帽的OpenShift也可以跑在一个PRC中。当前红帽正在帮一些制造业企业在设计这样的场景，如果用CI/CD的方法把容器以及AI的逻辑调度起来，它就能更快地做生产转型。这会给工业生产带来巨大价值。
做AI开发、数据科学、应用开发都是一个CI/CD过程，但做事情的角度不同，需要一个平台将其串联，实现多段协同。红帽提倡的云原生AI可以做到两件事：一是隔离，让有限的资源被用在特定的事情上；二是共享，按政策相互间可以联通协作。
用户在OpenShift上可同时调度英特尔OpenVINO和英伟达GPU框架，并支持软性的多GPU共享，即一个数据中心能将GPU分给了很多用户。

文章图片
赵锡漪说，作为一个开源的、中立的、平台型厂商，红帽的优势是可以集合大家的优势。这些优势应用到整个AI算法构建过程中，就变成了一个逐步可完善的过程。
使用AI能力通常有两种方式：一种是研究数据，然后进行模型构建，这是红帽OpenDataHub产品中最核心的；另一种是已经写好更底层的代码，直接用GPU资源，这时可以用OpenShift虚拟化，将GPU切成很多个vGPU 。

文章图片
上图的8个组件，均可由OpenDataHub调度起来。 OpenDataHub可通过MLflow模式，将这些组件经提供好的参数，直接匹配成一套可运行的环境，用户在Python上直接写代码即可，不需要自己在底层配置。
其中有一个组件SELODM很有价值，它可以把不同的AI模型组合在一起，把它描述成一个协同工作的模型。比如说有三个模型，先做两个模型的运算，然后通过前两个模型算出来谁的接近率最高，例如谁的接近率到90%以上，就把它用到的B模型的输入里面，然后B模型再输出，最终形成一个总的运算结果。
有了SELODM ，用户可同时将几个模型下发到生产中，按照比例设置这边用多少、那边用多少，然后最后评估谁的模型更有效，以此发布一个更有效的模型。