如此“爬虫”?代码全省了
共 1737字,需浏览 4分钟
·
2024-04-27 10:40
大家好,我是章北海
Jina AI 开源了 RAG 数据处理中的关键组件:“网页数据爬取” ——Reader,目前 3300+ Star⭐️
项目地址:https://github.com/jina-ai/reader
Jina AI Reader 特征:
-
免费使用 -
开源 -
延迟大概 2S 内,复杂的内容可能需要更多时间 -
提供 stream 模式,方便缓解复杂内容等待 -
不支持多语 -
能够处理 PDF 如 arXiv,但是不是一个通用的 PDF 抽取器 -
未来会支持处理图片或视频总结 -
支持在线网页 -
5 分钟之内上传的内容会缓存
说它是爬取其实有点“过”了,因为这个工具主要服务于将任何 url 转化为 LLM 友好的格式(比如 markdown),然后可以再针对这些内容集成不同的模型。
用法很简单:在 https://r.jina.ai
网址复制进去:https://r.jina.ai/https://mp.weixin.qq.com/s/z0H_5eEF3hGSIayYLEMO1A
它可以免费使用,提供 Stream 模式可流式读内容(简单内容2s内可获取)
curl -H "Accept: text/event-stream" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page
也可以访问 https://jina.ai/reader/,尝试在线 Demo。
填入链接,点击 FETCH CONTENT 即可获取到内容,甚至提供了基于获取的内容直接提问,结合 Jina AI 的 Embedding 召回 + LLM 组合输出。
如你所见,arxiv的论文也能获取到
Jina AI Reader 原理是通过 puppeteer 抓取网页内容,然后解析再保存成 markdown,这样的方法对于抓取静态的网页内容还可以,如果抓取更复杂的页面就无能为力,还是需要更专业的爬虫解析工具。
其实抓取url,将正文转换为良好的markdown格式的工具还有很多,比如:
-
https://markdowndown.vercel.app
-
web-scraper(open source): https://github.com/zzzgydi/webscraper
-
code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown (偏向于更好地处理代码块)