国内爬虫开发人员的未来

FightingCoder

共 2313字,需浏览 5分钟

 ·

2022-04-09 10:10

这是「进击的Coder」的第 600 篇技术分享作者:kingname来源:未闻 Code

阅读本文大概需要 6 分钟。


先抛出我的观点:希望各位做爬虫的同学,尽快,尽可能多地做海外的爬虫项目,爬海外的网站,这才是你们新的未来。

最近两年,我已经没有做过国内任何网站的爬虫了,根据这两年爬海外网站的一些经验,谈谈我的发现和想法。

内地的环境不适合做爬虫

国内网站在这么多年的爬虫与反爬虫的斗争中,反爬能力越来越强,瑞数、极验和其它第三方专业反爬虫系统,已经能挡住很多人了。

国内值得爬的网站就只有几个,大家都在爬,你有 1GB 的数据,他有 1TB 的数据,内卷极其严重。并且还有很多工作室直接使用群控技术,几万台机器一起爬,普通人很难跟他们竞争。

国内一些专门做舆情分析的公司,他们甚至可以通过地下渠道直接拿到网站的内部 API,数据质量比你通过爬虫爬的数据高多了。

最后,比较重要的是,爬国内的大网站,很容易被请喝茶。轻者拘留,重者在档案里面留下一辈子的污点。

海外数据的新机遇

NLP 的语料

NLP 最重要的四个元素就是:语料、模型、算法、算力。其中模型和算力可以复用,自然不是问题。但因为没有人抓海外的数据,因此缺少了语料,没有语料,就没有办法训练模型。NLP 里面的 ABSA、语意理解、文本生成、智能问答也全都做不下去。特别是小众语言——法语、俄语、韩语、西班牙语,几乎就没有国内的公司在做。

抓数据不难,但难在对数据的标注。现在国内对小众语言的标注,还停留在使用 Google 翻译把小众语言先翻译成英文,再让人去给英文打标的阶段。

如果你能尽早收集小语种的语料,然后让懂这个语料的人去打标,那么以后即便你不直接做 NLP,光出售小语种的标注数据,你都可以大赚一笔。国内学习小语种的大学生,找工作都很困难。如果你能让他们兼职给你标注数据,不仅提供了就业岗位,而且价格非常低廉,属于是双赢。

语料抓取的壁垒不是爬虫技术,而是数据量和数据多样性。数据量达到一定规模以后,壁垒自然就能形成。别人的爬虫再先进,只要他短期收集不了那么多的数据,那么他就没有办法超过你。

总之,越早开始收集海外语料,越早能形成自己的壁垒。

游戏出海

众所周知,游戏在内地已经没有未来了,各大游戏厂商在接下来的几年会把游戏出海作为最重要的目标。目前已经有几家公司的游戏在东南亚大杀四方,在欧美市场也一路血洗当地的产品。想必大家都知道我说的是哪几个游戏。

7da3b3cb998e6b0d62c3f6f65fc64e8a.webp

但可以确定的是,目前国内做舆情分析的公司,还没有谁能够把海外舆情(特指非英语国家)分析做好。如果你有丰富的海外舆情抓取经验,那么当这些公司招聘的时候,你就有很高的竞争力。

尽职调查

除了游戏外,基于数据的尽职调查也是一个方向。投资人在确定是否要投资某个创业公司前,都会做尽职调查(DD)。其中基于数据的尽职调查(DDD)就是其中的重要一环。例如一个电商初创公司告诉投资人,他每个月的销售额有几百亿,然后你用爬虫爬一下他的商城,根据每个商品的销量和评论,反推出他的月销售额只有几百元,那么你就能知道这个电商公司在骗投资人了。

又比如某个直播网站,对投资人宣称自己的日活月活非常高,然后你用爬虫监控一下热门主播的评论数,礼物数,设计一个公式计算出它的真实日活月活,两边一对比你就知道他们有没有骗人了。

海外网站是新的蓝海

只要你把视野放开,稍微研究一下我国台湾、香港的网站,以及英法意德,巴西韩国,俄罗斯东南亚的网站,你就会发现:

  1. 大部分网站几乎没有反爬虫机制
  2. 语料极其丰富
  3. 小部分网站有极难的反爬虫系统(Akamai),但是可以通过曲折绕过的方式拿到数据
  4. 国内几乎没有竞争对手,你爬得越多,你积累的原始资本就越大

如果你是个人开发者,你几乎不用担心有什么风险。因为不会有人来找你喝茶。

怎么跟外国的公司竞争?

有人可能会问,难道美国、欧洲自己没有做爬虫、做舆情的公司吗?他们肯定也做了很多年了,为什么国内的公司要找你,而不去找这些欧美本土的公司?

我认为,就凭这五个字:你是自己人

如果你是一家中国的公司,专注分析海外舆情。即便你的业务能力跟一家欧美公司差不多甚至稍微低一些(当然低太多可不行),国内的大公司在选择合作伙伴的时候,一定会优先考虑你,而不是欧美当地的公司。

无论从人性上,还是从法律合规上,选择自己人都会安心很多。从人性上,中国人会选择跟中国人合作。大家都在互联网圈子,你这个公司怎么样,你这个老板怎么样,稍稍打听一下就知道了。只要知道你确实有实力,为什么不找你?

从业务上,两边公司沟通都用中文,有什么问题线上聊一下或者出个差,早上出发中午就能到,沟通起来很方便。

大公司应该怎么做爬虫?

我提到如果你是个人开发者或者小公司,那么你几乎不用担心任何风险。尽管爬就是了。

但如果你是国内的大公司,那么还是有一些注意事项的。因为大公司会担心像 GDPR 这样的信息保护法,也会担心如果爬虫被发现了会影响自己的国际声誉。但这些其实都不是什么大问题,都有办法绕过去的。

具体做法跟本文的关系不大,我就先不讲了。如果大家对爬虫出海有兴趣的话,请留言告诉我,我可以再分享一些具体的实践经验。

8ceaca0046dff1501c179c1e8f603280.webp

End

崔庆才的新书《Python3网络爬虫开发实战(第二版)》已经正式上市了!书中详细介绍了零基础用 Python 开发爬虫的各方面知识,同时相比第一版新增了 JavaScript 逆向、Android 逆向、异步爬虫、深度学习、Kubernetes 相关内容,‍同时本书已经获得 Python 之父 Guido 的推荐,目前本书正在七折促销中!

内容介绍:《Python3网络爬虫开发实战(第二版)》内容介绍


c5ecfd36b9ef5a81979776ee19d026e3.webp


扫码购买




好文和朋友一起看~
浏览 40
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报