这些 AI 算法太强了,我有个大胆的想法!Jack Cui关注共 1500字,需浏览 3分钟 ·2020-09-12 19:20 点击上方“Jack Cui”,选择“加为星标”第一时间关注技术干货!好久没有推荐有趣的算法了,今天 Jack 再带大家逛逛「AI 乐园」,看看最近新出了哪些新奇好玩的 AI 算法。1深度估计不知你有没有发现,最新的视觉技术研究,多了很多 3D 相关的工作。深度估计就是其中之一。Facebook 的最新一项研究,根据视频帧序列,就可以稳定地估计图像的深度。图像深度信息有了,就可以做很多有意思的视频特效:「水漫金山」、「漫天飞雪」、「金星环绕」。论文提出了一种重建单目视频中所有像素密集、几何一致性深度估计算法。比以往的单目深度估计方法具有更高的精度,同时结果更加稳定。代码开源,盘它!项目地址:https://github.com/facebookresearch/consistent_depth2Wav2LipAI 技术可以撑起鬼畜视频的一片天。Wav2Lip,算法如其名,Wav 音频转嘴唇 Lip。就是字面的意思,给算法一个音频文件,算法可以让视频里的人物,将这段话自然地念出来。任何人物身份,甚至包括卡通人物,任何语音和语言,都可以将口型视频高精度同步到任何目标语音。这位老哥甚至还为小白量身打造了网页 Demo,上传音频和视频就可以体验。网页地址:https://bhaasha.iiit.ac.in/lipsync/对于有一定编程基础的,可以去 GitHub 下载源代码,只要有你想鬼畜的人的照片或者视频,再输入一段文字,就能合成你想要的视频了。比如来一段「特朗普热爱中国宣言」,是不是就突然来了灵感。天啊,我脑海里浮现了好多大胆的想法。有个 Wav2Lip 还不算完,还有个 Lip2Wav。我们可以理解为 AI “读唇术”。视频的声音没了,Lip2Wav 帮你生成。根据画面嘴唇的动作,进行“读唇”,给你音频结果。值得注意的是,Lip2Wav 和 B站 那些机械风格的鬼畜调音不一样。这个 AI 效果炸裂,你几乎感觉不到是机器配音,就像人类在发言一样。算法原理就是根据面部特征,对唇部进行编码,再使用 LSTM 进行音频合成。Wav2Lip 和 Lip2Wav 都有开源代码。来吧,翻牌子,喜欢哪个点哪个。Wav2Lip 项目地址:https://github.com/Rudrabha/Wav2LipLip2Wav 项目地址:https://github.com/Rudrabha/Lip2Wav3HiFiC没做过网站的朋友可能不知道。图片的大小,太影响网页的加载速度了。过多过大的图片,可能让你的页面加载,就像老太太吃硬饼一样,得慢慢磨。还在为图像加载犯愁吗?最新的好消息是,谷歌团队采用了一种 GANs 与基于神经网络的压缩算法相结合的图像压缩方式HiFiC,在码率高度压缩的情况下,仍能对图像高保真还原。下面是这种算法展现出来的图像与 JPG 格式图像的对比。左边是 HiFiC 算法压缩效果,右边是同等体积 JPG 格式图片的效果。可以非常明显地看到,HiFiC 算法压缩的图片要清晰太多了。代码还没有开源,但是作者老哥说「快了,快了,这次一定!」想要体验的小伙伴,直接网页走起!项目地址:https://hific.github.io/4总结文章写完,已经凌晨1点多了,肝得我脑瓜仁疼。转发分享点赞三连有没有?这次一定! 浏览 46点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 特斯拉造的这个仿生机器人,我有个大胆的想法放毒0使用 Sealos 三分钟打造鉴黄神器,我有个大胆的想法……云原生实验室0马斯克:我有一个大胆的想法!给红绿灯加个AI视觉「外挂」新机器视觉0马斯克:我有一个大胆的想法!给红绿灯加个AI视觉「外挂」视学算法0马斯克:我有一个大胆的想法!给红绿灯加个AI视觉「外挂」新智元0视线估计实战,卧槽,我有一个大胆的想法!AI算法与图像处理0英伟达的AI太强了!公众号CVer0关于 Python 自动化,我有一些想法AirPython0我是一位40岁的“老程序员”,我有一些想法Java引导者0我是一位40岁的“老程序员”,我有一些想法极客挖掘机0点赞 评论 收藏 分享 手机扫一扫分享分享 举报