人工智能,“抛弃”真实数据集?
人工智能与算法学习
共 2017字,需浏览 5分钟
· 2022-04-15
来源:学术头条
但普遍存在的一个问题是,科研人员要想通过训练一个机器学习模型来执行某一特定任务(比如图像分类),往往需要使用大量的训练数据,而这些数据(集)却并不总是很容易获得。
比如,如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型,但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本,一旦遇到这种情况,模型就不知道该如何做,可能会产生不必要的后果。
而且,使用已有数据生成数据集,也会花费数百万美元。
另外,即使是最好的数据集,也常常包含对模型性能产生负面影响的偏见。
那么,既然获得、使用一个数据集代价这么昂贵,能不能在保证模型性能的前提下,使用人为合成的数据来训练呢?
近日,一项来自麻省理工学院(MIT)科研团队的研究显示,一种使用合成数据训练的图像分类机器学习模型,可以与使用真实数据来训练的模型相媲美,甚至性能更好。
相关研究论文以“Generative models as a data source for multiview representation learning”为题,以会议论文的形式发表在 ICLR 2022 上。
据论文描述,在训练过程中,生成模型首先会获取数百万张包含特定对象(比如汽车或猫咪)的图像,然后学习汽车或猫咪的外观,最后生成类似的对象。
简单来说就是,研究人员使用一个预先训练的生成模型,参照模型训练数据集上的图像,输出大量独特的、真实的图像流。
(来源:Pixabay)
另外,生成模型还可以基于训练数据做进一步拓展。
如果生成模型是基于汽车图像进行训练的,它就可以“想象”出汽车在不同情况下是什么样的,然后输出具有不同颜色、大小和状态的汽车图像。
生成模型具备很多优点,其中之一便是,它在理论上可以创建无限数量的样本。
基于此,研究人员试图搞清楚样本数量如何影响模型性能。结果显示,在某些情况下,大量的独特样本确实会带来额外的改进。
而且,在他们看来,生成模式最酷的一点在于,我们可以在在线资料库中找到并使用它们,而且不需要干预模型就可以获得良好的表现。
但生成模型也有一些缺点。例如,在某些情况下,生成模型可能会揭示源数据,从而带来隐私风险,如果没有进行适当的审计,可能会放大它们所训练数据集中的偏差。
近年来,为解决这一问题,生成式 AI(Generative AI)成为了人工智能领域的热议话题之一,被业内给予了足够高的期待。
去年底,Gartner 发布了 2022 年重要战略技术趋势,将生成式 AI 称为是“最引人注目和最强大的人工智能技术之一”。
据 Gartner 预测,预计到 2025 年,生成式 AI 将占所有生成数据的 10%,而目前这一比例还不到 1%。
图|Gartner 2022 年重要战略技术趋势(来源:Gartner 官网)
在最新的“Hype Cycle for Artificial Intelligence,2021”报告中,生成式 AI 作为 2-5 年即可成熟的技术出现。
(来源:Gartner Hype Cycle for Artificial Intelligence, 2021)
但是,生成式 AI 也会被滥用于诈骗、欺诈、政治造谣、伪造身份等,比如经常产生各种负面新闻的 Deepfake。
那么问题来了,如果我们有足够好的生成模型,还需要真实的数据集吗?
原文链接:
winter
分享
收藏
点赞
在看
评论
小美播报|3月IPTV数据排行榜发布!
小美播报3月IPTV数据排行榜:《与凤行》登顶连续剧榜榜首拥有4.05亿家庭用户的中国IPTV平台已经成为国内主流视听平台,IPTV平台数据对视听产业各环节都具有重要意义。截至2024年4月,全国已有29个省级IPTV加入“看中国”,覆盖全国超2.25亿户家庭、辐射近7亿人。点击查看详情湖南广电与马
流媒体网
0
python读取一个文件里面几百个csv数据集然后按照列名合并一个数据集
点击上方“Python爬虫与数据挖掘”,进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤但使龙城飞将在,不教胡马度阴山。大家好,我是Python进阶者。一、前言前几天在Python最强王者交流群【FiNε_】问了一个Python自动化办公,问题如下:python 读取一个文
Python爬虫与数据挖掘
3
AKShare-股票数据-恐惧贪婪指数
作者寄语本次更新股票数据-恐惧贪婪指数接口。主要修复该接口,目前该接口可以获取 A 股 恐惧贪婪指数 数据。欢迎加入专注于财经数据和量化投资的【数据科学实战】社区,加入方式参见文末!更新接口"index_fear_greed_funddb" # 恐惧贪婪指数恐惧贪婪指数接口: index
数据科学实战
10
人工智能周刊#17:Llama3、微调 LLMs 的 PyTorch 原生库、李彦宏内部讲话、900 个最受欢迎的AI 工具
在内部讲话中,李彦宏对大模型开源与闭源的路线选择,以及 AI 创业者应该专注模型还是应用等业界焦点话题,发表了自己的看法。人工智能周刊:关注Python、机器学习、深度学习、大模型等硬核技术本期目录:1、Meta 最新发布 Llama 3 80 亿和 700 亿参数版本2、「抱抱脸」公
机器学习算法与Python实战
10
实战必备-数据清洗、数据存储、数据可视化-《AKShare-初阶-实战应用》
✔️课程介绍本课程主要给大家介绍 AKShare 的实战应用部分,主要包括对 AKShare 获取到的数据进行数据清洗,数据存储和数据可视化。课中会提供我们在进行数据处理中的最佳实践!课程目录✔️获取方式如下: 直接购买订阅: ¥39.8/年🔗扫码进入课程店铺:🔅懒得
数据科学实战
31
图像处理,计算机视觉和人工智能之间的差异
作者:Pallawi原文链接:https://medium.com/@pallawi.ds/difference-between-image-processing-computer-vision-and-artificial-intelligence-af670d65055d编译:AI算法与图像处理
机器学习初学者
10
怎么样python把这个excel列数据中双引号去掉呀?
点击上方“Python爬虫与数据挖掘”,进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤万籁此都寂,但余钟磬音。大家好,我是皮皮。一、前言前几天在Python最强王者交流群【6G】问了一个Pandas数据分析的问题,这里拿出来给大家分享下。数据截图如下:二、实现过程其实Ex
Python爬虫与数据挖掘
4
李飞飞团队发布《2024年人工智能指数报告》,预测人工智能未来发展趋势
大数据文摘授权转载自夕小瑶科技说作者:Zicy斯坦福大学 Human-Center Artificial Intelligence (HAI)研究中心发布了《2024年人工智能指数报告》。由斯坦福大学发起的人工智能指数(AI Index)是一个追踪 AI 动态和进展的非营利性项目,旨在全面研究 AI
大数据文摘
0