如何把「知乎」的文章优雅的收割下来,形成自己的知识库!
知乎文章 和 手动收藏
「知乎」是一个大型的在线知识库,涉猎之广,出乎想象。
虽然近几年来,知乎的「重心」一直下移,有不少话题下的帖子质量几乎和「贴吧」接近,但尽管如此,知乎上面仍旧沉淀了大量 有用的经验 或 专业的知识。
无论我要脑外科这种的专业冷门的知识,还是买手机电脑这种大众的参考性意见,「知乎」都能给出至少可启发的答案, 当然其中也含有不少「无厘头」「抖机灵」「软广告」的文章需要我们分别。
因此,就像收集知乎文章一样,如果要收集这些网上良莠不齐的知识,我们可以:
(1)简单粗暴的用脚本爬取文章
(2)通过我们甄别筛选,有选择的手动收藏。
火箭君倾向于方法(2),虽然会麻烦一点,但是收藏不在于数量,在于质量。少而精的知识摘要,远远胜过几万篇从来不看一眼的囤积文章。
今天我们不讲如何甄别筛选优秀的文章,这种事情因人而异,不同的人有不同的价值观和收集目的,难有定论。我们今天单单讲讲,如果我看中了一篇网上文章(以「知乎」为例),我们如何高效的将它收藏到自己的囊中。
先说一下,如果我们已经安装了第三方插件,例如:印象笔记·剪藏
那么可以方便的一键同步「知乎」网页到云笔记或者云端收藏夹里。
如果,我们 不想把收藏的知识放在 第三方的云端,只想把文章保存到自己本地或者内部网络上。 可以参考下面的办法:
网页转存
火箭君对转存的要求很简单,文章的存在是为了将来可以参考查看,不是囤积在那里自嗨。所以网页转存下来后要变成 单一文件 方便传输归类管理。这个文件必须是:
格式透明
内容是公开格式而且可检索的,不要长截图,不要专有格式(类似那种paper文献的专有格式),纯文本配图片最好。
可本地保存
文件最好可本地保存,如果不能也要可以方便的导出到本地,不要动不动就锁死在XX云盘上。(尤其是累积到一定量之后,会有很大的取出风险)
所以,最直接的方案就是:
1. 保存为 mhtml
mhtml就是网页文件,不过将图片和文字等信息打包在一起。
在浏览页面时,使用 CTRL+S 保存网页.
保存时,就可选择 mhtml 格式。这样,就能把网页,包括里面的图片,都变成单一文件存储,方便我们归档。
2. 转为 PDF 保存
无论是 Windows 还是 macOS 只要有较新版本的Chrome浏览器,都可以直接将网页打印到PDF保存,不过网页内容繁杂的话,还要加装去广告插件。PDF是标准格式,阅读友好,便于打印。 基于PDF,后面还会提到版式调节。
浏览器中,在网页上直接 Ctrl+P(打印网页) 即可
如果是微软系的浏览器或Office,一般还会有微软的 打印到PDF选项。
这种做法很简单,只要打印网页时,选择一个 支持PDF输出的 「虚拟打印机」即可。
Save as PDF
Microsoft Print to PDF
这两个虚拟打印机 都可以
另外,这个PDF转存的方法有额外的好处,例如:
可以只保存选中部分
可以只保存 1-3页
可调节 保存时的 PDF 每页的大小(其实就是虚拟打印的用纸规格)
总的来说,PDF转存是个比较灵活的方案。
优雅的转存
直接保存和打印下来的文件当中,会夹杂不少 广告,或者无关的导航内容,这些内容可能会增加以后阅读的负担。因此在收藏时就把它们去除可能是最理想的。
简单方法就是,安装一些去广告插件,或者采用类似「简悦」之类的网页阅读插件。
火箭君自己的经验是,如果有 Windows10 自带的 Edge 浏览器,就可以省心很多了。
我们看看怎么收集「知乎」网页的。
第一步
打开Edge,连上「知乎」,找到答案。 例如:我们想收集一篇「前额叶」的文章(别问我什么是「前额叶」,我也不知道!)
特别注意的是,有些知乎回答下面会显示「展开阅读全文」,务必要点击「展开」后,再进行后面的保存操作,否则存下来的就真的只有展开前的那个文章片段了。
另外,文章很长,图片很多的话,务必完整看一遍,知乎里面图片采用的是「懒加载」,只有我们页面上浏览到了,这些图片才会真的被加载进网页里面来。对于我们来说,图片只有加载进来才能保存下来,否则即使保存下来也是一个空洞的框框而已。
第二步
点击「沉浸式阅读模式」(如果没有出现这个沉浸式阅读模式的图标,请看下一步)
可以看到无关内容已经被去除,只留下正文,而且排版非常适合阅读。
第三步
如果没有「阅读模式」也可考虑转到移动设备模式,一般移动设备版面下,许多额外的页面导航栏目会被去除,便于手机小屏幕查看内容。
在网页上 CTRL+SHIFT+I, 出现浏览器调试窗口。
然后点击下面的图标按钮
点击上述按钮后,会有一个设备尺寸列表可选。选择后,网页的页面布局也会发生变化(有时需要F5刷新)。 一般会使得文章更加便于阅读。
第四步
确认版式后,就可以按照上面所说的基本方法, 打印到 PDF 或者 转存到 mhtml 。收工!
随着从「知乎」或者其它地方收藏下来的资料文件越来越多,我们很快就需要能把它放到不同的文件夹里分门别类的进行保管或归档了。至于如何高效管理这些收藏,我们下次再做详细介绍。
火箭君建议,大家或许可以试试我们的自研产品 「tagLyst Next」。
tagLyst Next 专注于给 PDF/Word/Excel 等各种文件加上 标签,方便我们进行知识管理。
— 【 THE END 】— 本公众号全部博文已整理成一个目录,请在公众号里回复「m」获取! 3T技术资源大放送!包括但不限于:Java、C/C++,Linux,Python,大数据,人工智能等等。在公众号内回复「1024」,即可免费获取!!