Jigsaw Datase提高大型语言模型性能的工具
Jigsaw 是微软推出的一种可以提高大型语言模型性能(如 GPT-3、Codex 等)的新工具。
Jigsaw 部署了理解程序语法和语义的后处理技术,然后利用用户反馈来提高未来的性能;该工具旨在使用多模式输入为 Python Pandas API 合成代码。Pandas 是数据科学中广泛使用的 API,具有数百个用于 manipulating dataframes 或具有行和列的表的函数。
目标是使部分审查自动化,以提高使用 Codex 等大型语言模型进行代码合成的开发人员的生产力。
Jigsaw 获取英语查询并使用适当的上下文对其进行预处理,以构建可以馈送到大型语言模型的输入。该模型被视为一个黑盒子,并且 Jigsaw 已使用 GPT-3 和 Codex 进行了评估。这种设计的优势在于它支持即插即用最新和最好的可用型号。微软在实验中发现,Jigsaw 可以在 30% 的时间内创建正确的输出。如果代码失败,那么修复过程在后处理阶段开始。
在后处理过程中,Jigsaw 应用了三种变换来修复代码。这些转变中的每一个都是由他们在 GPT-3 和 Codex 中观察到的故障模式所激发的。而 GPT-3 和 Codex 失败的方式都类似,因此 Jigsaw 解决这些失败模式的后处理对两者都很有用。
微软在各种数据集上评估了 Codex 和 Jigsaw (with Codex),并测量了准确率。Codex 给出了约 30% 的开箱即用的准确性,Jigsaw 则将准确率提高到 60% 以上;通过用户反馈,准确率可提高到 80% 以上。
评论
MPT-30B大型语言模型
MPT-30B是MosaicPretrainedTransformer(MPT)模型系列的一部分,它使用了一个为高效训练和推理而优化的transformer架构,并在1Ttokens的英文文本和代码上
MPT-30B大型语言模型
0
GPT-2基于 transformer 的大型语言模型
GPT-2是一种基于transformer 的大型语言模型,具有15亿个参数,在800万网页数据集上进行训练。它是论文《语言模型是无人监督的多任务学习者》(LanguageModelsareUnsup
GPT-2基于 transformer 的大型语言模型
0
GPT-2基于 transformer 的大型语言模型
GPT-2 是一种基于 transformer 的大型语言模型,具有 15 亿个参数,在 800 万
GPT-2基于 transformer 的大型语言模型
0
LoRA大型语言模型的低秩适应
LoRA是 Low-RankAdaptationofLargeLanguageModels的简写,即大型语言模型的低秩适应。它冻结了预训练模型的权重,并将可训练的秩分解矩阵注入到Transformer
LoRA大型语言模型的低秩适应
0
Lit-Parrot大型语言模型的可破解实现
Lit-Parrot是基于nanoGPT的StableLM/Pythia/INCITE语言模型的实现。支持flashattention、LLaMA-Adapter微调、预训练。最先进的开源大型语言模型
Lit-Parrot大型语言模型的可破解实现
0
书生·浦语多语言大型语言模型
InternLM(书生·浦语)是在过万亿token数据上训练的多语千亿参数基座模型。通过多阶段的渐进式训练,InternLM基座模型具有较高的知识水平,在中英文阅读理解、推理任务等需要较强思维能力的场
书生·浦语多语言大型语言模型
0