基于序列标注的信息抽取模型(已申请专利)
共 2138字,需浏览 5分钟
·
2021-03-15 03:43
向AI转型的程序员都关注了这个号👇👇👇
人工智能大数据与深度学习 公众号:datayx
实体-关系抽取模型
基于标注模型,百度SAOKE语料库实现的关系抽取模型。
代码 获取方式:
分享本文到朋友圈
关注微信公众号 datayx 然后回复 信息抽取 即可获取。
AI项目体验地址 https://loveai.tech
使用简介
依赖环境
requirements.txt 存储该模型所需依赖包。
使用 pip install -r requirements.txt
安装所有依赖环境。
输入
将带抽取关系的句子,每句一行存放于项目根目录的input.txt
文件中。
标注、抽取
命令行输入./ie.sh tag
进行标注。
之后命令行输入./ie.sh ie
进行分组,并储存结果。
结果储存于facts.json
文件中。
结果格式
每个句子生成一个list,每个list包含0或多个dictionary,每个dictionary代表每个六元祖。六元祖包含主语、谓语、宾语、时间、地点、约束条件。
Server: WEB_API的使用
web_api 工作在: host: 0.0.0.0:8010
使用方法:
输入
GET方法传递待抽取的句子/片段: localhost:8010\ie?s=我爱吃苹果
或是
localhost:8010\ie?s=泽文公司不服一审判决,于1997年6月28日提起上诉。|泽文公司系设在青岛保税区的日商独资企业。|国家工商行政管理局为其颁发的营业执照中载明,泽文公司的经营范围是:国际贸易、转口贸易、生产加工、汽车零配件。
若是片段,则后台会根据符号|
分割成单句,再进行抽取。
输出
每个dic代表一个关系,是一个六元组。每个句子可能会抽取出多条关系,由一个list包含这多个dic。最外边一个list包含所有的句子。
例如,
单句
段落
阅读过本文的人还看了以下文章:
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
机大数据技术与机器学习工程
搜索公众号添加: datanlp
长按图片,识别二维码