好未来开源首个在线教学中文预训练模型-技术圈

【公众号回复 “1024”，免费领取程序员赚钱实操经验】

大家好，我是章鱼猫。

今天推荐的这个项目是「edu-bert」，是好未来开源的教育领域首个在线教学中文预训练模型 TAL-EduBERT。

背景

在线教育领域 NLP 的研究、应用和发展有两大挑战：

一是从音视频转录出来的文本数据中，存在着较多的 ASR 错误，这些错误可能会对文本处理相关任务的效果造成较大的影响；
二是数据中含有大量的教育领域特有的专有词汇，现有的通用领域的开源词向量和开源预训练语言模型（如 Google BERT Base，Roberta 等）对于这些词汇的语义表示能力有限，进而会影响后续任务的效果。

为了帮助解决这两个问题，好未来 AI 中台机器学习团队从多个来源收集了超过 2000 万条（约包含 3.8 亿 Tokens）的教育领域中文 ASR 文本数据，基于此建立了教育领域首个在线教学中文预训练模型 TAL-EduBERT，并把其推至开源。

模型结构

TAL-EduBERT 在网络结构上，采用与 Google BERT Base 相同的结构，包含 12 层的 Transformer 编码器、768 个隐藏单元以及 12 个 multi-head attention的head。之所以使用 BERT Base 的网络结构，是因为考虑到实际使用的便捷性和普遍性，后续会进一步开源其他教育领域 ASR 预训练语言模型。

训练语料

TAL-EduBERT 所采用的预训练语料，主要源于好未来内部积淀的海量教师教学语音经 ASR 转录而得到的文本，对于语料进行筛选、预处理后，选取了超过 2000 万条教育 ASR 文本，大约包含 3.8 亿 Tokens。

预训练方式

适用范围

相较于 Google BERT Base和Roberta，TAL-EduBERT 基于大量教育 ASR 文本数据训练，因此对于 ASR 的识别错误具有较强的鲁棒性，并且在教育场景的下游任务上也具有较好的效果。鉴于此，推荐从事教育，并且工作内容与 ASR 文本相关的 NLP 算法工程师使用我们的模型，希望能通过本次的开源，推进自然语言处理在教育领域的应用和发展。

使用方法

与 Google 发布的原生 BERT 使用方式一致，支持 transformers 包，因此在使用时，直接进行模型路径替换即可。

开源项目地址：https://github.com/tal-tech/edu-bert

开源项目组织：好未来技术

推荐阅读：

重磅推荐：一个有趣的英语学习扩展程序

简直牛逼，那些对软件开发人员有用的定律、理论、原则和模式

重磅推荐：一个也许能骗到黑客的系统

---特别推荐---

特别推荐：一个新的优质的推荐高效工具，软件，插件的公众号，每天给大家分享优秀的效率工具，「程序员掘金」，专门为程序员挖掘好东西的一个公众号，非常值得大家关注。