GAN背后的数学原理是什么?初学者的理论入门圣经来了 | 一周AI最火论文

共 2968字,需浏览 6分钟

 ·

2020-09-10 16:46

大数据文摘出品
作者:Christopher Dossman
编译:Olivia、Joey、云舟


呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!

AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

每周更新,做AI科研,每周从这一篇开始就够啦!


本周关键词:机器人、GAN、DNN


本周最佳学术研究


生成对抗网络(GAN)的数学原理介绍


你是否一直想了解生成对抗网络(GAN)背后的数学原理呢?
 
自Ian Goodfellow开创性地提出GAN以来,这个网络框架受到了相当多的关注。研究人员和工程师深入研究了理论概念并研发出了许多与GAN相关的新观点,新技术和新应用。如此多的科研成果令Yann LeCun都认为,“GAN和它层出不穷的诸多变体是机器学习领域过去10年中最有趣的想法。”
 
本文试图从数学的角度为GAN的初学者提供入门知识。诚然,理解GAN绝不仅仅是理解其数学原理这么简单,还需要充分理解它的算法和应用等。尽管如此,研究者仍认为理解数学原理对于理解GAN是至关重要的。因为在此基础上,掌握GAN的其他方面将更加容易。
 
原文:
https://arxiv.org/abs/2009.00169v1
 

一个发展型机器人的模拟环境


尽管针对特定应用的发展型机器人模型已经有了许多令人印象深刻的新进展,但是能够像人类一样学习和执行多任务的模型仍非常缺乏。换言之,我们有必要为类似于人类学习环境的模型提供更多样化的体验。
 
在这项工作中,研究人员提供了一种用于发展型机器人的模拟环境SEDRo,该环境仍在开发中。SEDRo提供了从胎儿到12个月大的人类的体验。根据研究,一系列基于发展心理学的模拟测试将用于评估学习模型的进展。
 
研究人员称,SEDRo可以在进行实体机器人实验之前测试认知架构,从而减少了用于昂贵的实体机器人实验的候选架构数量。因此,他们期望SEDRo能够降低入门成本,并促进发展型机器人领域的研究。
 
原文:
https://arxiv.org/pdf/2009.01810v1.pdf
 

关于加快深度神经网络的训练和推断的研究


深度神经网络(DNN)越来越多地被用于许多应用领域来提供最先进的结果。然而,尽管它们越来越重要,但它们对计算和内存的要求却也非常高。这在客观上导致了科研人员们从应用系统到底层硬件去全流程地优化DNN,过程中涉及到了很多复杂技术。
 
在本文中,研究人员介绍了一种利用稀疏性来加速DNN训练和推断的硬件技术TensorDash。鉴于训练的重要性,它面临的用于加速软件或硬件的工作量非常大且不断增加。
 
TensorDash将是低成本且稀疏的,它将每乘数八个多路复用器输入的输入操作数互联结构与区域高效的硬件调度器结合在一起。在评估方面,TensorDash在将训练过程加快了1.95倍的同时将能源效率提高了1.89倍,而且在考虑到片上和片外存储器访问时将能源效率提高了1.6倍。
 
原文:
https://arxiv.org/abs/2009.00748v1
 

使用RangeRCNN实现快速、准确的3D对象检测


3D数据对于自动驾驶等多种应用极为重要。但是,由于点云不规则且稀疏,因此3D对象检测仍然是一个极具挑战性的任务——这需要对3D点云进行强有力且合适的研究。
 
为此,近期的一项新研究探索了距离图像表示的潜力,并引入了一个新的框架:RangeRCNN,用于快速、准确的3D对象检测。
 
广泛的评估表明,RangeRCNN在KITTI 3D对象检测数据集上达到了最先进的性能。研究人员证明,基于距离图像的识别方法可以在KITTI数据集上有效,这也为实时3D对象检测提供了更多可能性
 
阅读更多:

https://arxiv.org/abs/2009.00206v1

 

能实现关键字检索的神经网络结构


本文实现了卷积神经网络模型实现了搜索功能,该模型可以基于从声音信号中提取的特征来帮助提高关键字识别性能,同时保持可接受的内存占用。
 
具体而言,研究人员使用可区分的体系结构搜索技术在预定义的单元格搜索空间中搜索操作员及其连接。然后将找到的单元在深度和宽度上按比例放大以实现高性能。测试结果表明,该方法在Google的语音命令数据集上表现不错,并且在文献中通常报告的12类话语分类设置上达到了97%的最新精度。
 
但是,该方法的计算量大,需要数百个GPU,并且无法将模型转移到大型数据集。另外,本文的作者设计了一个NASNet搜索空间来搜索最佳的卷积层,并堆叠此单元的副本,以形成NASNet体系结构。尽管NASNet训练得更快,并且可以推广到更庞大的数据集,但是使用500个GPU进行整个搜索过程仍需花费四天的时间,让人不禁问:这真的是值得一试的东西吗?
 
阅读全文:

https://arxiv.org/abs/2009.00165v2


其他爆款论文


新的研究发现,通过重新训练进行变换量化能够将CNN模型(例如AlexNet,ResNet和DenseNet)压缩到非常低的比特率(1-2位):
https://arxiv.org/abs/2009.01174v1
 
在官方的KITTI排行榜中,这一新方法在所有基于融合的方法中排名最高:

https://arxiv.org/abs/2009.00784v1

 

用于线下生成样式手写文本的GAN:
https://arxiv.org/abs/2009.00678v1
 
3D面部深度恢复GAN:

https://arxiv.org/abs/2009.00938v1

 
深度学习运动捕捉入门——原理、陷阱和观点:

https://arxiv.org/abs/2009.00564v2

 

学习资源


自适应深度学习训练和计划框架的开源资源——AdaptDL:

https://petuum.com/2020/09/02/introducing-adaptdl

 

AI大事件

 
确切数据显示,对人工智能工作的兴趣真的在激增:

https://economictimes.indiatimes.com/jobs/artificial-intelligence-jobs-see-a-spike-in-interest-says-indeed-data/articleshow/77926043.cms?from=mdr


专栏作者介绍

Christopher Dossman是Wonder Technologies的首席数据科学家,在北京生活5年。他是深度学习系统部署方面的专家,在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验,他还教授了1000名学生了解深度学习基础。

LinkedIn:

https://www.linkedin.com/in/christopherdossman/


志愿者介绍
后台回复志愿者”加入我们


点「在看」的人都变好看了哦!
浏览 21
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报