【机器学习】推荐一个好用的开源automl工具
机器学习初学者
共 915字,需浏览 2分钟
·
2022-01-01 19:54
AutoX
AutoX是第四范式开源的针对表数据的自动机器学习工具。
主要功能包括两点:
一、提供全流程的自动机器学习pipeline;
二、用户可以把它的某一个某功能单独拿出来,作为生产力工具,完成机器学习中的某一个环节,例如,自动特征筛选、自动调参等。
项目地址
Github地址:
https://github.com/4paradigm/autox
效果对比
选取的数据包含分类/回归/时间序列预测、单表/多表,AutoX在大多数的数据上,效果都由于其他产品。
不同任务下的效果对比:
AutoX技术方案
AutoX的整体技术方案包含了机器学习的全流程,我们在每一个流程都做了打磨和优化。废话不多说,直接上图。
数据预处理
数据预处理模块包含了异常值处理,缺失值填充,自动类型推断,内存优化。
自动拼表
表关系的识别和自动拼表,这一步让autox具有了处理多表数据的能力。
特征工程
特征工程这一块也是我们效果优于其他产品的关键点。
特征构造方面,主要是通过对比赛、行业数据的top方案的总结和抽象,设计出一系列关键特征。
特征选择方面,包括两块,一个是常规的特征选择模型,另一方面是通过mate特征的方式来实现特征的抽象聚合。
模型选择
模型选择采用了主流的树模型和nn模型。
模型调参
基于贝叶斯的调参,也使用了目前较优秀的第三方库optuna。
模型融合
包含bagging和stacking策略。
模型可解释方法
autox也实现了一些优秀的模型可解释方法。包括全局代理模型、局部代理模型、影响力样本、代表性样本和非代表性样本。
往期精彩回顾 本站qq群955171419,加入微信群请扫码:
评论