沉迷于GPT的博士师兄
共 3936字,需浏览 8分钟
·
2023-11-09 23:21
11.9日-11.10日,我们邀请到休斯顿大学博士,美国某顶尖公司总部资深研究科学家Michael老师,为我们带来——从0到1,打造专属你的chatgpt,通过自己,实现一个gpt“小模型”。
导师推荐近3年热门大模型论文合集部分展示
导师简介:Michael老师
01
-美国休斯顿大学博士,美国某顶尖公司总部资深研究科学家
-共发表10余篇SCI国际期刊和SEG(行业顶会)论文,包括一区期刊Fuel(影响因子6.609),及二区期刊Pure and Applied Geophysics(影响因子2.61);行业会议顶刊论文SEG, AAPG, EAGE等
-长期担任SEG (Society of Exploration Geophysicist), AAPG, EAGE等审稿人, IEEE Signal Processing,Pure and Applied Geophysics等国际顶级期刊审稿人,并担任某国际会议Program Chair
-研究领域:图像识别,目标检测,异常值识别、去噪、图像合成、数据挖掘,NLP、金融量化等
直播大纲
02
1.使用基于解码器(decoder)和自注意力机制(self-attention)的框架搭建自己的gpt模型
2.从文本tokenizer开始,经过embedding,加上位置embedding,计算注意力
3.经过几轮训练,实现一个gpt“小模型”
我们这个模型的参数都是可调的,包括一些超参,比如输入句子长度,batch-size,多头数量,以及多少个包含multi-head的大模块。当然,层数越多参数就越多,训练就越慢。此外,我们还会基于pytorch 分布式训练包,提供单机多卡的分布式训练代码.
导师推荐近3年热门大模型论文合集部分展示
近期,苹果公司正在悄悄研究可以挑战OpenAI、谷歌和其他公司的 AI 工具,建立自己的框架来创建大语言模型,大语言模型正迅速成为互联网时代最热门的技术创新之一。接下来,我们来看看大语言模型的 5大应用场景:
一、文本翻译
大语言模型最简单的实际应用之一就是翻译书面文本。例如,用户可以向 AI 助手输入文本,并要求它翻译成另一种语言,然后应用就会自动开始翻译成自然流畅的文本。
二、恶意软件分析
大数据模型可以利用大量的数据来建立模型,通过机器学习算法和数据挖掘技术,从中发现恶意软件的特征和行为模式,从而可以更好地对恶意软件进行检测、分类和分析。2023 年 4 月,谷歌推出网络安全 LLM Sec PaLM 的大语言模型,展示了在恶意软件分析中的一些用途。
三、创造文本内容
大语言模型的另一个越来越常见的用途是文本内容的创造。各种大语言模型都具备可以按照用户想法,生成博客、长篇文章、短篇故事、摘要、脚本、问卷、调查和社交媒体帖子等一系列书面内容的能力。用户提供的想法越详细,模型输出内容的质量就越高。
四、搜索
许多刚开始接触大语言模型的用户,会首先尝试将生成式 AI 作为一种替代搜索的工具。用户只需要使用自然语言向 AI 程序提问,程序会立即回复,并提供关于相关话题的见解和“事实”。现在市场面已经有非常多的搜索引擎,已经引入大语言模型,来带给用户更好的体验,例如Bing等。
五、代码开发
生成式 AI 工具不仅能生成自然语言,还能生成例如 JavaScript、Python、PHP、Java 和 C# 等编程语言的代码。大语言模型的代码生成能力可以使得非技术用户也能生成一些基本的代码。此外,它们还可用于帮助调试现有代码,甚至生成注释文档。
作为一个科研小白,怎么发表一篇优质论文?
为了论文,大家都在努力的设计新网络、新策略、新training算法,只要能够在某一问题上做到一个很好的performance,论文就水到渠成。而想要快速达到,来自前辈的指点不可或缺。
一个好的指导老师的作用是,没有课题,能够结合所在课题组具体情况,结合最近热门研究方向,帮你规划课题,如果有了课题而缺少创新方向,老师能够快速帮你找到几种切入点,几种框架,甚至连需要读哪些文献都帮你想好了......
文末福利
时值沃恩智慧19周年X11.11『双庆典』,我们将在11月8日晚上19:00,邀请你一起参与见证!为大家带来"真材实料”的福利奖品!11.1-11.13日豪礼送不停!
-END