基于机器学习与BERT的在线招聘欺诈检测平台
共 2288字,需浏览 5分钟
·
2022-01-14 13:43
向AI转型的程序员都关注了这个号👇👇👇
机器学习AI算法工程 公众号:datayx
随着个人电脑使用者的增多和互联网技术的普及与发展,企业进行招聘的方式也发生了很大的改变。从早期主要是内部推荐、张贴海报,到较早期发展为在报纸、杂志、电视或广播电台上发布招聘广告,再到到外地举办大型招聘会等方式,直至现如今网络招聘的兴起,可以看出,企业愈来愈主动拓展眼界,积极向外寻找适合的人才。与此相协调的是,而今求职者在寻找合适职位时,不仅仅局限于所在地区的企业,对于网络招聘的依赖程度日益增高。网络有效地拉近了全国范围内企业与求职者的距离。招聘的网络化已成为一种普遍的招聘模式。
然而,在线招聘并非一片净土,与之相反,由于网络平台的开发性、不安全性以及相关制度和法律的不健全等等原因,在线招聘平台逐渐变成了欺骗者的“无法无天之地”。更加令人沮丧的是,如今的虚假招聘变得越来越难以与真实招聘区分开来,越来越多的求职者陷入发布虚假招聘者的圈套之中。
项目目标
具体的研究在线招聘欺诈的各个方面
提供我们使用的在线招聘数据集
详细的分析数据集,并根据数据集给出判定招聘是否虚假的参考规则集
提出给予机器学习的在线招聘欺诈检测的解决方案
提供检测的使用接口及扩展接口
如果时间及精力允许,实现一个 demo
项目原则
客观性
保证项目从始至终进行的过程客观的看待每一个步骤
真实性
保证项目用到的所有数据及其他信息均真实且来源可靠
有效性
保证所有项目理论及项目成果测试有效,争取满足商业使用
易用性
保证项目提供的数据集、源程序或者成果易于使用,项目代码尽量保证模块化、自动化,项目结构保证解耦规范
可扩展性
保证项目成果(特别是模型训练结果及输入数据集)具有高度的可扩展性
代码 获取方式:
关注微信公众号 datayx 然后回复 招聘 即可获取。
二、项目总体分析
业务分析
系统分析
项目流程图
项目部署
由于本项目为同时对数据的向量和文本分类,使用了 Bert 作为文本编码服务,部署文本分类的环境比较大,故本仓库没有提供文本编码服务(只有一个文本分类的模型)
测试:测试向量分类可在安装好环境后直接运行 tests-vec.py 查看运行结果。如果部署好了文本编码服务也可直接运行 tests.py 查看运行结果
机器学习算法AI大数据技术
搜索公众号添加: datanlp
长按图片,识别二维码
阅读过本文的人还看了以下文章:
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx