书生·浦语多语言大型语言模型
InternLM(书生·浦语)是在过万亿 token 数据上训练的多语千亿参数基座模型。通过多阶段的渐进式训练,InternLM 基座模型具有较高的知识水平,在中英文阅读理解、推理任务等需要较强思维能力的场景下性能优秀,在多种面向人类设计的综合性考试中表现突出。在此基础上,通过高质量的人类标注对话数据结合 RLHF 等技术,使得 InternLM 可以在与人类对话时响应复杂指令,并且表现出符合人类道德与价值观的回复。
基于 InternLM 训练框架,发布了两个开源预训练模型 InternLM-7B 和 InternLM-20B。
模型亮点
-
多语。InternLM 具备多种语言的理解和表达能力,尤其能熟练使用中英双语,在中文和英文的多种客观评测上都强于社区开源模型
-
推理。通过在不同来源的数据以及精选高质量数据上进行训练,InternLM 在逻辑推理、代码生成以及复杂指令跟随等方面表现出色
-
考试。使用人类考试数据作为验证模型能力的试金石。InternLM 在 MMLU、C-Eval 等考试评测集上性能优异,特别是在各项中文考试中获得了超越ChatGPT的分数
评测结果
InternLM 可以在 MMLU、AGIEval、C-Eval 以及 GAOKAO-bench 等涵盖了不同语言以及学科的考试基准集上取得不错的分数,在多个基准集得分超过 ChatGPT
MMLU
AGIEval
C-Eval
GAOKAO-bench
英文测评
在来源广泛的英语语料上进行预训练后,InternLM 在多种不同的英文学术评测集上性能优异,例如知识性问答、阅读理解以及数学推理等
中文测评
通过在各种中文语料上进行预训练,InternLM 不但可以熟练使用中文,同时在中文俗语理解、阅读理解、关键词抽取等客观评测任务上也取得非常不错的性能