对话短文本语义匹配-冠军代码

机器学习AI算法工程

共 2683字，需浏览 6分钟

·

2021-10-02 12:37

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程公众号：datayx

小布助手是OPPO公司为欧加集团三品牌手机和IoT设备自研的语音助手，为用户提供了有趣、贴心、便捷的对话式服务。意图识别是对话系统中的一个核心任务，而对话短文本语义匹配是意图识别的主流算法方案之一。本赛道要求参赛队伍根据脱敏后的短文本query-pair，预测它们是否属于同一语义。

冠军方案

源代码获取方式

关注微信公众号 datayx 然后回复语义配匹即可获取。

AI项目体验地址 https://loveai.tech

数据

本项目没有提供数据，如果需要数据，请到天池比赛主页下载

https://tianchi.aliyun.com/competition/entrance/531851/introduction

预训练模型准备

下载预训练模型

nezha-base:
https://drive.google.com/file/d/1HmwMG2ldojJRgMVN0ZhxqOukhuOBOKUb/view?usp=sharing
nezha-large:
https://drive.google.com/file/d/1EtahNvdjEpugm8juFuPIN_Fs2skFmeMU/view?usp=sharing
uer/bert-base:
https://share.weiyun.com/5QOzPqq
uer/bert-large:
https://share.weiyun.com/5G90sMJ
macbert, chinese-bert-wwm-ext, chinese-roberta-wwm-ext-large
https://huggingface.co/models

预训练模型开源仓库

https://github.com/dbiir/UER-py
https://github.com/huawei-noah/Pretrained-Language-Model

下载并解压, 解压到文件夹 data, 文件夹结构如下:

预训练模型md5

环境准备

torch==1.7.0
transformers=4.3.0.rc1
simpletransformers==0.51.15
TensorRT-7.2.1.6

端到端训练脚本

cd code
bash ./run.sh

不同版本方案

方案一: 预训练(多个模型) + finetune-分类(多个模型) + 生成软标签 + 训练regression模型(软标签，单模型)
```
cd code
bash ./train.sh
```
初赛使用的该方案，初赛成绩为0.9220；
方案二: 预训练(多个模型) + 加载预训练参数，初始化一个大模型 + 训练分类模型(单模型)
```
pipeline/pipeline_b.py
```
训练一个144层模型(6 * 12 + 24 * 3);
该模型单模型在复赛A榜成绩0.9561；推理平均时间15ms；
方案三: 预训练(多个模型) + finetune-分类(多个模型) + 平均融合
```
pipeline/pipeline_d.py
```
融合6个bert-base + 3个bert-large模型；
该模型在复赛A榜没测试，B榜成绩0.9593；推理平均时间15ms；

机器学习算法AI大数据技术

搜索公众号添加： datanlp

长按图片，识别二维码

阅读过本文的人还看了以下文章：

TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank，用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解，通俗易懂！

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门：基于Python的理论与实现》高清中文PDF+源码

特征提取与图像处理(第二版).pdf

python就业班学习视频，从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习：基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》，加州伯克利深度学习（2019春）教材

笔记、代码清晰易懂！李航《统计学习方法》最新资源全套！

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源！CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师，你的面试为什么过不了？

前海征信大数据算法：风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目，让你掌握深度学习图像分类

VGG16迁移学习，实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七)：图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分？

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师（共四面）通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南：CNN、RNN及使用技巧速查（打印收藏）

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加： datayx

浏览 107

点赞

收藏

分享

举报

评论

图片

表情

explainshell文本匹配工具

以色列的IdanKamara开发了explainshell这个非常酷的工具。在搜索框里任意输入Linux命令，系统会将命令解析，从Ubuntu的manpage库中调出解释文本。

Simnet | 神经网络语义匹配技术

阿泽的学习笔记

MatchZoo深度文本匹配工具

MatchZoo 是中科院开源的一个文本匹配工具包。它着重于让大家更直观地了解深度文本匹配模型的设

MatchZoo深度文本匹配工具

MatchZoo是中科院开源的一个文本匹配工具包。它着重于让大家更直观地了解深度文本匹配模型的设计、对比和共享。架构MatchZoo 有三个主要模块，分别为数据预处理、模型构建和训练与评测。它基于Ke

无监督语义匹配之BERT-Whitening

NLP从入门到放弃

白话NLP中的语义匹配方法

Python与算法之美

基于分词的文本模糊匹配分析

【NLP】NLP 语义匹配：经典前沿方案整理

机器学习初学者

EverEdit文本代码 markdown 编辑器

EverEdit是一个快速、轻量级和易于扩展的集文本、源代码编辑于一身的高性能纯文本编辑器。它可以运

EverEdit文本代码 markdown 编辑器

EverEdit是一个快速、轻量级和易于扩展的集文本、源代码编辑于一身的高性能纯文本编辑器。它可以运行于WindowsXP、WindowsVista、Windows7、WindowsServer200

点赞

收藏

分享

举报