数据人不得不知的机器学习平台
为什么需要机器学习平台?
众说周知,当今社会大数据和人工智能技术正助推各个领域迅猛发展,各大企业都在通过机器学习算法挖掘业务背后的商业价值,打造AI产品,快速的从数据转化为收益。
因此,业务、数据、算法成为AI产品的三个重要因素。通过对数据进行算法建模,赋能业务,产生价值。稍微对算法有了解的同学都知道,算法开发工作一般包括数据准备、特征工程、算法建模、模型评估、模型调优、模型部署以及模型监控等步骤,如下图所示:
从算法开发整个流程可以看出,在算法开发落地应用整个过程中,其实掺杂着与很多机器学习本身不是很相关,但与其他工程领域强相关而且通用的事情,比如模型部署、任务监控、模型可视化甚至包括环境搭建、资源调度等。于是,帮助大家脱离繁琐的工程化开发,如何让机器学习快速落地应用并提供通用的能力,成为机器学习平台这个概念产生的意义。
名词解释
为了便于大家理解不混淆,这里对机器学习平台相关的名词做了一定的解释。
机器学习算法。简称算法,指使用各类编程语言构建的算法,大部分情况下和具体业务是无关的。主要包括统计方法、传统机器学习算法、深度学习甚至某些数学规则等。比如无监督K均值聚类算法,有监督LR、随机森林、GBDT等算法,还有DNN、RNN深度学习等算法。
机器学习模型。简称模型,对具体业务强依赖,与业务强相关,用来对新数据进行直接预测的一系列算法参数的集合,通常需要和机器学习算法配合进行工作。比如金融风控模型、推荐模型、广告点击率模型、销量预测模型等。
机器学习框架。也可称为机器学习运行时环境,是指能够直接提供机器学习算法编写、模型训练和模型应用的软件系统,如Tensorflow、MxNet等,这些框架会直接调度计算资源和存储资源,其运行机制和具体的业务场景无关。
机器学习平台。上面已经说明,通过平台化来封装整个机器学习建模流程,允许用户使用主流的机器学习框架进行算法开发工作并且大部分提供可视化的构建流程。比如阿里云PAI、腾讯Ti-ML等(后面会具体描述)。其目的是为了使机器学习快速工程化落地应用,产生价值。
机器学习平台功能
机器学习平台能够支撑算法开发、分享、模型训练、部署、监控等⼀站式算法服务,其一般的框架及功能如上图所示,其功能主要有大量内置的基础算法、统一的数据管理、集成的运行环境、可视化建模、模型复用等,还可以在此基础上进行算法超市开发沉淀解决方案。这里主要介绍一下可视化建模。
可视化建模不同于算法工程师利用编程语言(比如:Python、java等)进行算法开发,它通过拖拉拽的方式完成数据到图形的映射,引导用户直观的进行数据操作、探索。如下图所示:
可视化建模可以让用户基于平台内部的数据处理、算法节点,以拖拉拽迅速完成机器学习、深度学习、自然语言处理等算法模型构建,实现数据的关联、模型的预测等功能。这样就降低了建模工作对于专业算法工程师的依赖,更加智能、高效的进行算法开发工作。
业内机器学习平台介绍
业内比较知名的机器学习平台有阿里云PAI、腾讯Ti-ML、第四范式先知、美林Tempo等。
4.1阿里云PAI
阿里云PAI是目前国内应用范围最广泛的机器学习平台,也是国内技术能力公认最强的平台之一。主要优点有:
1.多框架支持
2.多语言间接支持(默认提供 Python 编程入口,其他语言需要自己提供运行环境)
3.阿里云集成度较高
4.丰富的API接口
4.2 腾讯Ti-ML
Ti-ML包含三个机器学习平台自产品,分别是:
(1)Ti-ONE,一站式机器学习平台,提供AutoML能力,自动化的构建机器学习程序;
(2)Ti-EMS,自动根据客户的机器学习程序来进行资源需求推理和调度;(3)Ti-Insight,根据工业界的需求,内置了各类主流的机器学习场景流程,用户可以直接从模板构建自己的机器学习应用。
腾讯推出其机器学习平台相对较晚,但其功能和定位和阿里云PAI即无二致。主要优点为:
1.多框架支持。
2.多语言间接支持。
3.腾讯云集成度高。
4.API 丰富等。
4.3 第四范式先知
第四范式公司是专门做机器学习平台的AI技术与服务商,先知是国内曝光率最高的机器学习平台之一。国际权威研究机构IDC发布了首份《IDC MarketScape:中国机器学习开发平台市场评估》。
该评估结果显示,第四范式市场份额位列中国第一,并处于机器学习平台市场领导者位置。其优点主要为:
1.自成一体,通常可以方便的独立部署。
2.国内专门做机器学习的商业化公司,通常可以方便的提供二次开发服务。
3.自研GDBT计算性能,处理大规模数据和高维特征优势明显。
4.4 美林tempo
美林成立于1998年,成立时间比较久,虽然公司规模不大,但在数据分析领域已经有不少的积淀。
其中TempoData机器学习平台作为其主打产品,其主要优点为:
1.入门门槛较低,功能的复杂度远远低于阿里云PAI。
2.作为专业商业服务公司,便于二次开发。
此外,还有百度EasyDL、九章云极等,这里就不一一做介绍了。
结尾
大部分机器学习平台的早期都是公司内部普遍使用,随着人工智能和大数据技术的火热,逐渐产品成熟度增加,最后进行市场化推广。基于AI应用的机器学习平台是快速实践业务创新的基础底座,ta不但帮助算法工程师脱离繁琐的工程化开发,把有限的精力聚焦于自己优势算法策略的迭代上面,也使非专业IT人员可以进行可视化建模,降低了AI开发的门槛。
以上内容,为个人理解总结而来。如有不对的地方,欢迎指正,万分感谢~~