arXiv无偿捐赠170万篇论文给Kaggle,BERT版审稿人要来了!
新智元报道
新智元报道
来源:arXiv等
编辑:白峰
【新智元导读】最近,知名预印本网站arXiv宣布向Kaggle提供170万篇「纯净」的论文,供广大机器学习爱好者进行深入挖掘,国外网友表示,这些数据训练下就能出一个BERT版审稿人了!
近日,arXiv向Kaggle开放了170万篇论文的原始数据。
为了使文章更易于访问,arXiv提供了一个可以直接获取、机器可读的 json格式数据集。
目前,该数据集收录了170万篇文章,包含文章标题、作者、类别、摘要、全文 pdf 文档等。
网友:BERT版「审稿人」要来了!
网友:BERT版「审稿人」要来了!
这么好的数据集不拿来干点啥,好像不是大家的风格。这不,有reddit网友打趣道,在上面训练个AGI,就能找到工作了!
那喂给GPT-3会发生什么?「我不知道,但是给BERT的话应该训练出来一个审稿人」!
之前大火的youtube「伪机器学习」明星,Siraj Raval又被拿出来鞭尸。。这家伙没准就是这些数据训练出来的。
此前,Siraj 开设 「用机器学习赚钱」的课程,被爆出课程质量跟宣传大相径庭,而学员要求退款都被拒绝甚至拉黑,被大举声讨。
30年来,arXiv 向公众提供了大量的学术文章,从众多的物理学分支到计算机科学,现在也包含了数学、统计学、电子工程、计量生物学和经济学。
170万篇,这种量级的arXiv 论文有非常重要的研究价值,可以对某一领域或者某个知名教授的研究工作、研究成果和作者学术背景的关系等方面都可以进行深度挖掘,发现隐藏在论文背后的规律。
周志华:「别把arXiv当作正式文章,跳大神都有可能」
周志华:「别把arXiv当作正式文章,跳大神都有可能」
对于研究人员来说,arXiv 是一个很好的工具,可以自由地分享各种论文,已经出版的、即将出版的、从未出版的都可以。
如果有些负面的科研结果没人愿意发怎么办?没关系,arXiv也能收,而且发表在arXiv上,被引用的概率就会变大,即使按比较严的标准算,在一些顶级会议接收前发到arXiv比接收后发,引用次数要高出65%。
但是 arXiv 并非没有争议。
有研究指出,使用 arXiv 「占坑」和规避同行评议程序的人数正逐渐上升。就目前来看,在 arXiv 上发布你的工作(即便是不完整的)几乎没有任何负面影响,只有潜在的好处。
小木虫的一个帖子
前段时间,付向东教授论文被抄袭事件,就是nature的审稿期太长了,一直没能公开发表,2018年11月投的稿,2020年6月才发表,结果在这期间论文idea被剽窃后抢发。
南大周志华老师曾发微博指出,不要把arXiv当做正式文章,当成BBS即可,没经过同行评审,连跳大神都是有可能的。
不管arXiv的文章质量如何,它确实给了很多没有背景的学生,分享自己见解的机会,也让我们读到了很多前沿的进展,不知道周志华老师组的学生发不发arXiv?
arXiv保护了你的idea,谁来维护它?
arXiv保护了你的idea,谁来维护它?
在1990年左右,乔安妮·科恩(Joanne Cohn)开始通过电子邮件将物理预印本发送给同事,但很快,因为发送的论文数量太多,邮箱「爆仓」了。
保罗·金斯巴格(Paul Ginsparg)意识到了中央存储的必要性,并于1991年8月创建了一个中央仓库邮箱,该邮箱存储在洛斯阿拉莫斯国家实验室(LANL)中,可以从任何计算机上进行访问。
之后,保罗·金斯巴格在1991年建立了arXiv网站,将原来的邮箱迁移了过来。本意在收集物理学的论文预印本,随后拓展到天文、数学等其它领域。金斯巴格因arXiv获得了2002年的麦克阿瑟奖。
2011年9月,康奈尔大学图书馆全面负责arXiv的运营和发展。金斯巴格也曾抱怨说,「这原本是一个3小时的旅程,而不是一个无期徒刑」。抱怨归抱怨,金斯巴格现在仍然留在arXiv的科学顾问委员会中。
arXiv掀起了科学出版业的「开放获取」运动,如今很多研究人员都习惯先将其论文上传至arXiv.org,再提交给专业的学术期刊,这种模式对传统学术期刊的经营造成了很大的冲击。
虽然arXiv不是一个盈利性机构,但它的大获成功也引来了不少模仿者。
比如bioRxiv,一个生物学开放获取预印本网站。
还有viXra,一个无门槛预印本网站,由英国独立物理学者菲利普·吉布斯( Philip Gibbs)于2009年建立。
尽管arXiv上的文章未经同行评审,但在2004年起采用了一套「认可」系统。在这套系统下,作者首先要得到认可,这种认可可能来自另一位具认可资格者的背书,或者依照某些内部规定而自动授予。
与arXiv不同,viXra不要求投稿的作者有任何学术机构的背书,也不设准入标准和质量门槛。除规定禁止的「庸俗,诽谤,剽窃或危险的误导」外,允许任何人发表任何论文。
谈到开放获取,看到下面这个迷人的微笑,你想要的论文open了吗?
激动的小伙伴,赶紧打开arXiv提交一篇属于你的论文吧!
参考链接:
https://zh.wikipedia.org/wiki/ArXiv
https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/
https://medium.com/@sergeyfeldman/the-association-between-early-arxiv-posting-and-citations-72034f0914b2