国内爬虫开发人员的未来-技术圈

这是「进击的Coder」的第 600 篇技术分享作者：kingname来源：未闻 Code
“

阅读本文大概需要 6 分钟。

”

先抛出我的观点：希望各位做爬虫的同学，尽快，尽可能多地做海外的爬虫项目，爬海外的网站，这才是你们新的未来。

最近两年，我已经没有做过国内任何网站的爬虫了，根据这两年爬海外网站的一些经验，谈谈我的发现和想法。

内地的环境不适合做爬虫

国内网站在这么多年的爬虫与反爬虫的斗争中，反爬能力越来越强，瑞数、极验和其它第三方专业反爬虫系统，已经能挡住很多人了。

国内值得爬的网站就只有几个，大家都在爬，你有 1GB 的数据，他有 1TB 的数据，内卷极其严重。并且还有很多工作室直接使用群控技术，几万台机器一起爬，普通人很难跟他们竞争。

国内一些专门做舆情分析的公司，他们甚至可以通过地下渠道直接拿到网站的内部 API，数据质量比你通过爬虫爬的数据高多了。

最后，比较重要的是，爬国内的大网站，很容易被请喝茶。轻者拘留，重者在档案里面留下一辈子的污点。

海外数据的新机遇

NLP 的语料

NLP 最重要的四个元素就是：语料、模型、算法、算力。其中模型和算力可以复用，自然不是问题。但因为没有人抓海外的数据，因此缺少了语料，没有语料，就没有办法训练模型。NLP 里面的 ABSA、语意理解、文本生成、智能问答也全都做不下去。特别是小众语言——法语、俄语、韩语、西班牙语，几乎就没有国内的公司在做。

抓数据不难，但难在对数据的标注。现在国内对小众语言的标注，还停留在使用 Google 翻译把小众语言先翻译成英文，再让人去给英文打标的阶段。

如果你能尽早收集小语种的语料，然后让懂这个语料的人去打标，那么以后即便你不直接做 NLP，光出售小语种的标注数据，你都可以大赚一笔。国内学习小语种的大学生，找工作都很困难。如果你能让他们兼职给你标注数据，不仅提供了就业岗位，而且价格非常低廉，属于是双赢。

语料抓取的壁垒不是爬虫技术，而是数据量和数据多样性。数据量达到一定规模以后，壁垒自然就能形成。别人的爬虫再先进，只要他短期收集不了那么多的数据，那么他就没有办法超过你。

总之，越早开始收集海外语料，越早能形成自己的壁垒。

游戏出海

众所周知，游戏在内地已经没有未来了，各大游戏厂商在接下来的几年会把游戏出海作为最重要的目标。目前已经有几家公司的游戏在东南亚大杀四方，在欧美市场也一路血洗当地的产品。想必大家都知道我说的是哪几个游戏。

但可以确定的是，目前国内做舆情分析的公司，还没有谁能够把海外舆情（特指非英语国家）分析做好。如果你有丰富的海外舆情抓取经验，那么当这些公司招聘的时候，你就有很高的竞争力。

尽职调查

除了游戏外，基于数据的尽职调查也是一个方向。投资人在确定是否要投资某个创业公司前，都会做尽职调查（DD）。其中基于数据的尽职调查（DDD）就是其中的重要一环。例如一个电商初创公司告诉投资人，他每个月的销售额有几百亿，然后你用爬虫爬一下他的商城，根据每个商品的销量和评论，反推出他的月销售额只有几百元，那么你就能知道这个电商公司在骗投资人了。

又比如某个直播网站，对投资人宣称自己的日活月活非常高，然后你用爬虫监控一下热门主播的评论数，礼物数，设计一个公式计算出它的真实日活月活，两边一对比你就知道他们有没有骗人了。

海外网站是新的蓝海

只要你把视野放开，稍微研究一下我国台湾、香港的网站，以及英法意德，巴西韩国，俄罗斯东南亚的网站，你就会发现：

大部分网站几乎没有反爬虫机制
语料极其丰富
小部分网站有极难的反爬虫系统（Akamai），但是可以通过曲折绕过的方式拿到数据
国内几乎没有竞争对手，你爬得越多，你积累的原始资本就越大

如果你是个人开发者，你几乎不用担心有什么风险。因为不会有人来找你喝茶。

怎么跟外国的公司竞争？

有人可能会问，难道美国、欧洲自己没有做爬虫、做舆情的公司吗？他们肯定也做了很多年了，为什么国内的公司要找你，而不去找这些欧美本土的公司？

我认为，就凭这五个字：你是自己人。

如果你是一家中国的公司，专注分析海外舆情。即便你的业务能力跟一家欧美公司差不多甚至稍微低一些（当然低太多可不行），国内的大公司在选择合作伙伴的时候，一定会优先考虑你，而不是欧美当地的公司。

无论从人性上，还是从法律合规上，选择自己人都会安心很多。从人性上，中国人会选择跟中国人合作。大家都在互联网圈子，你这个公司怎么样，你这个老板怎么样，稍稍打听一下就知道了。只要知道你确实有实力，为什么不找你？

从业务上，两边公司沟通都用中文，有什么问题线上聊一下或者出个差，早上出发中午就能到，沟通起来很方便。

大公司应该怎么做爬虫？

我提到如果你是个人开发者或者小公司，那么你几乎不用担心任何风险。尽管爬就是了。

但如果你是国内的大公司，那么还是有一些注意事项的。因为大公司会担心像 GDPR 这样的信息保护法，也会担心如果爬虫被发现了会影响自己的国际声誉。但这些其实都不是什么大问题，都有办法绕过去的。

具体做法跟本文的关系不大，我就先不讲了。如果大家对爬虫出海有兴趣的话，请留言告诉我，我可以再分享一些具体的实践经验。

End

崔庆才的新书《Python3网络爬虫开发实战（第二版）》已经正式上市了！书中详细介绍了零基础用 Python 开发爬虫的各方面知识，同时相比第一版新增了 JavaScript 逆向、Android 逆向、异步爬虫、深度学习、Kubernetes 相关内容，‍同时本书已经获得 Python 之父 Guido 的推荐，目前本书正在七折促销中！

内容介绍：《Python3网络爬虫开发实战（第二版）》内容介绍

扫码购买

好文和朋友一起看~