GPT2实现考公申论文章生成

机器学习AI算法工程

共 2752字,需浏览 6分钟

 ·

2021-02-23 13:01





向AI转型的程序员都关注了这个号👇👇👇

人工智能大数据与深度学习  公众号:datayx



近几年来,考公的人数越来越多,而申论作为考公非常重要的一部分,也是另很多人头痛的一部分。很多人在考试之前都会背一些优秀范文或句段,以便在考试时派上用场。这里我用GPT2预训练很多篇申论范文,使之能在某个话题的提示下自动申成一片范文或句段。话不多说,直接上代码。

代码 获取方式:

分享本文到朋友圈

关注微信公众号 datayx  然后回复 GPT  即可获取。

AI项目体验地址 https://loveai.tech


数据预处理

这里我找了500篇申论范文,不是很多,当然也可以多找点,最好是各类话题都有,越多越好。


造字典

将所有文章中的字,符号提取出来,去重后存入一个txt文档中


代码实现



对文章进行编码

利用字典对文章进行编码,如字典中第12个字是“我”,则在原文中的“我”就用数字11代替,然后保存每篇文章的编码。


代码实现:



网络模型

我搭建的是带多头注意力的GPT模型,由于电脑GPU显存不大,所以头数设的12,模块数设的6,字的维数为768,最多可生成500字



网络训练

生成训练数据



训练


测试


比如,输入“人工智能”,则会生成如下片段:

人 工 智 能 , 网 上 购 物 , 物 联 网 , 各 种 新 兴 技 术 层 出 不 穷 , 各 种 创 新 思 想 不 断 迸 发 , 国 家 政 策 环 境 需 求 都 为 创 新 提 供 了 丰 富 的 土 壤 , 这 也 是 最 坏 的 时 代 , 自 主 品 牌 创 新 能 力 薄 弱 , 山 寨 产 品 盛 行 , 核 心 技 术 被 外 方 意 志 很 大 程 度 上 削 减 了 我 国 的 竞 争 力 , 究 其 原 因 , 一 方 面 是 企 业 缺 乏 竞 争 意 识 , 创 新 意 识 目 光 短 浅 所 致 , 而 另 一 方 面 在 于 人 才 的 流 失 , 由 于 学 术 界 浮 躁 的 氛 围 , 以 及 体 制 的 不 完 善 等 , 许 多 科 研 人 员 面 临 工 资 低 , 没 有 项 目 的 窘 境 , 为 了 改 善 环 境 , 降 低 生 存 压 力 , 转 而 流 向 其 他 的 领 域 , 因 此 想 要 中 国 品 牌 走 出 国 门 , 提 升 竞 争 力 , 创 新 是 关 键 。打 造 中 国 品 牌 提 升 国 家 竞 争 力 , 融 入 民 族 精 神 是 重 点 。中 国 品 牌 之 所 以 被 称 为 中 国 品 牌 , 关 键 在 于 其 拥 有 独 特 的 魅 力 , 不 同 于 其 他 国 家 , 必 须 有 中 国 的 特 色 , 必 须 有 中 国 的 文 化 , 与 文 化 紧 密 结 合 , 故 宫 博 物 院 的 文 创 产 品 , 就 是 将 这 一 融 合 发 挥 到 极 致 的 典 范 , 将 文 物 蕴 含 的 文 化 内 容 融 入 到 产 品 设 计 当 中 , 设 计 出 具 有 中 国 特 色 的 独 一 无 二 的 文 创 产 品 , 不 仅 能 够 吸 引 大 量 的 游 客 , 更 传 承 了 中 国 文 化 之 道 , 不 仅 打 造 了 品 牌 , 更 将 这 一 品 牌 销 往 国 外 , 可 见 , 打 造 中 国 品 牌 , 还 必 须 要 将 中 国 文 化 结 合 其 中 , 方 能 够 让 中 国 品 牌 脱 颖 而 出 , 与 众 不 同 , 方 能 体 现 中 国 竞 争 力 。




阅读过本文的人还看了以下文章:


TensorFlow 2.0深度学习案例实战


基于40万表格数据集TableBank,用MaskRCNN做表格检测


《基于深度学习的自然语言处理》中/英PDF


Deep Learning 中文版初版-周志华团队


【全套视频课】最全的目标检测算法系列讲解,通俗易懂!


《美团机器学习实践》_美团算法团队.pdf


《深度学习入门:基于Python的理论与实现》高清中文PDF+源码


特征提取与图像处理(第二版).pdf


python就业班学习视频,从入门到实战项目


2019最新《PyTorch自然语言处理》英、中文版PDF+源码


《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码


《深度学习之pytorch》pdf+附书源码


PyTorch深度学习快速实战入门《pytorch-handbook》


【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》


《Python数据分析与挖掘实战》PDF+完整源码


汽车行业完整知识图谱项目实战视频(全23课)


李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材


笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!


《神经网络与深度学习》最新2018版中英PDF+源码


将机器学习模型部署为REST API


FashionAI服装属性标签图像识别Top1-5方案分享


重要开源!CNN-RNN-CTC 实现手写汉字识别


yolo3 检测出图像中的不规则汉字


同样是机器学习算法工程师,你的面试为什么过不了?


前海征信大数据算法:风险概率预测


【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类


VGG16迁移学习,实现医学图像识别分类工程项目


特征工程(一)


特征工程(二) :文本数据的展开、过滤和分块


特征工程(三):特征缩放,从词袋到 TF-IDF


特征工程(四): 类别特征


特征工程(五): PCA 降维


特征工程(六): 非线性特征提取和模型堆叠


特征工程(七):图像特征提取和深度学习


如何利用全新的决策树集成级联结构gcForest做特征工程并打分?


Machine Learning Yearning 中文翻译稿


蚂蚁金服2018秋招-算法工程师(共四面)通过


全球AI挑战-场景分类的比赛源码(多模型融合)


斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


python+flask搭建CNN在线识别手写中文网站


中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程



不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  



机大数据技术与机器学习工程

 搜索公众号添加: datanlp

长按图片,识别二维码

浏览 43
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报