OpenAI 联合创始人预言成真!
NLP从入门到放弃
共 2285字,需浏览 5分钟
·
2024-07-22 11:15
ChatGPT 火爆全球后,基于人类反馈的强化学习(RLHF)成为了一项可能让机器像人一样思考的重要技术。OpenAI 联合创始人、研究科学家 John Schulman 将“RLHF”看作是 ChatGPT 成功的秘密武器。
所以这次我整理了
+10年(2008-2018)NIPS顶会强化学习论文100篇
+ICLR2024强化学习和LLM相关论文573篇
+Neurips 2023 强化学习论文350篇
+ICLR2023顶会强化学习论文376篇
+强化学习发展路线 (含论文140篇)
+AAAI2023强化学习论文11篇
+经典强化论文合集100篇
扫码回复“强化学习”
立即领取1500篇强化学习顶会论文
最近,大语言模型LLM成为了大家关注的热点,在人机对话领域具有里程碑的意义。然而,传统的LLM并没有明确的动作层次上的策略,其潜在的策略可以看成是对Token的选择。
那么如何更好的学习基于深度强化学习任务型对话策略呢?
这次我邀请了国内985理工强校博士徐老师,在7月25日19点30和大家探讨任务型对话策略的现有研究方法、对话策略的评估方式、数据集,以及介绍经典论文,并且和大家分享对话策略在大模型中的应用以及未来的研究趋势。
扫码回复“强化学习”
预约25日晚19:30大咖直播
扫码回复“强化学习”
解锁三节强化学习系列课
左右滑动查看更多
扫码回复“大模型”
立即解锁顶会新idea
评论
黄仁勋预言成真了!!
2024 年 7 月 4 日,一年一度的世界人工智能大会 ( WAIC ) 在上海拉开帷幕,多款具身智能机器人惊艳亮相。早在ITF Worl半导体大会上英伟达CEO黄仁勋就曾表示:AI下一个浪潮正是“具身智能”。随着LLM不断智能化,具身智能体一定是未来的大势所趋。至少未来3三年,将会涌现出一大批基
算法进阶
0
找技术入股的联合创始人
Sheng, it should be wonderful. 技术能力基础以上,有坚持不懈的心 ,互相信任,时间观念强能产生概念共鸣者请联系微信
627849495 注明来意 非诚勿扰 好项目不想让无心者接触以免矛盾
Lsd创始人
0