正值高考，用AI写2022高考作文题试试-技术圈

关注涛涛CV，设置星标，更新不错过

用AI写作是NLP文本生成的经典应用实例，本文采用

https://github.com/EssayKillerBrain/EssayKiller_V2的算法进行写作，大家有兴趣可以自己去试试。线上点击即可使用demo，高考作文生成AI

https://colab.research.google.com/github/EssayKillerBrain/EssayKiller_V2/blob/master/colab_online.ipynb

这里选择了【2022年全国乙卷】和【2022年新高考全国I卷】作文题进行实验。

【2022年全国乙卷】

双奥之城，闪耀世界。两次奥运会，都显示了中国体育发展的新高度，展示了中国综合国力的跨越式发展，也见证了你从懵懂儿童向有为青年的跨越。亲历其中，你能感受到体育的荣耀和国家的强盛；未来前行，你将融入民族复兴的澎湃春潮。卓越永无止境，跨越永不停歇。

请结合以上材料，以“跨越，再跨越”为主题写一篇文章，体现你的感受与思考。

现在AI对主题的提炼还有待改善，所以我们需要自己概括文章主题送入文章生成器。

【2022全国新高考I卷】

“本手、妙手、俗手”是围棋的三个术语。本手是指合乎棋理的正规下法；妙手是指出人意料的精妙下法；俗手是指貌似合理，而从全局看通常会受损的下法。对于初学者而言，应该从本手开始，本手的功夫扎实了，棋力才会提高。一些初学者热衷于追求妙手，而忽视更为常用的本手。本手是基础，妙手是创造。一般来说，对本手理解深刻，才可能出现妙手；否则，难免下出俗手，水平也不易提升。

以上材料对我们颇具启示意义。请结合材料写一篇文章，体现你的感悟与思考。

介绍说明：

通用型议论文创作人工智能框架

项目简介

EssayKiller是基于OCR、NLP领域的最新模型所构建的生成式文本创作AI框架，目前第一版finetune模型针对高考作文（主要是议论文），可以有效生成符合人类认知的文章，多数文章经过测试可以达到正常高中生及格作文水平。

框架说明

基于EAST、CRNN、Bert和GPT-2语言模型的高考作文生成AI

支持bert tokenizer，当前版本基于clue chinese vocab

17亿参数多模块异构深度神经网络，超2亿条预训练数据

线上点击即用的文本生成效果demo：17亿参数作文杀手

端到端生成，从试卷识别到答题卡输出一条龙服务

模型结构

整个框架分为EAST、CRNN、Bert、GPT-2、DNN 5个模块，每个模块的网络单独训练，参数相互独立。infer过程使用pipeline串联，通过外接装置直接输出到答题卡。

1. 输入

高考语文试卷作文题

2. 识别网络

2.1 EAST文本检测

OpenCV 的EAST文本检测器是一个深度学习模型，它能够在 720p 的图像上以13帧/秒的速度实时检测任意方向的文本，并可以获得很好的文本检测精度。

2.2 CRNN文本识别

参考

https://github.com/ooooverflow/chinese-ocr

数据准备

下载训练集：共约364万张图片，按照99: 1划分成训练集和验证集

数据利用中文语料库（新闻 + 文言文），通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成。包含汉字、英文字母、数字和标点共5990个字符，每个样本固定10个字符，字符随机截取自语料库中的句子，图片分辨率统一为280x32。

2. 语言网络

2.1 BERT文本摘要

BERT的全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder。模型的主要创新点在pre-train方法上，用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。

2.2 GPT-2文本生成

参考

https://github.com/imcaspar/gpt2-ml/

预训练语料来自 THUCNews 以及 nlp_chinese_corpus，清洗后总文本量约 15G。Finetune语料来自历年满分高考作文、优质散文集以及近现代散文作品，约1000篇。

3.判分网络

3.1 DNN判分模型

这部分直接调用百度API。有现成的模型就不重复造轮子了，具体实现方式百度没有开源，这里简单描述一下语言模型的概念：语言模型是通过计算给定词组成的句子的概率，从而判断所组成的句子是否符合客观语言表达习惯。通常用于机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等。

这里使用通顺度打分作为判断依据。

3.2 高考排版器

标题
复用BERT_SUM生成Top3的NER粒度token作为标题

主体
高考议论文的写作格式要求。

预训练模型

模型	参数量	下载链接	备注
EAST	< 0.1 Billion	GoogleDrive	检测模型
CRNN	< 0.1 Billion	网盘链接提取码：vKeD	识别模型
BERT	0.1 Billion	GoogleDrive	摘要模型
GPT-2	1.5 Billion	GoogleDrive	生成模型