如此“爬虫”？代码全省了-技术圈

大家好，我是章北海

Jina AI 开源了 RAG 数据处理中的关键组件：“网页数据爬取” ——Reader，目前 3300+ Star⭐️

项目地址：https://github.com/jina-ai/reader

Jina AI Reader 特征：

说它是爬取其实有点“过”了，因为这个工具主要服务于将任何 url 转化为 LLM 友好的格式（比如 markdown），然后可以再针对这些内容集成不同的模型。

用法很简单：在 https://r.jina.ai
中填入任何 Url 即可获取到 LLM 友好的 Parsed Content（ Markdown）比如我公众号这篇文章

网址复制进去：https://r.jina.ai/https://mp.weixin.qq.com/s/z0H_5eEF3hGSIayYLEMO1A

它可以免费使用，提供 Stream 模式可流式读内容（简单内容2s内可获取）

curl -H "Accept: text/event-stream" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page

也可以访问 https://jina.ai/reader/，尝试在线 Demo。

填入链接，点击 FETCH CONTENT 即可获取到内容，甚至提供了基于获取的内容直接提问，结合 Jina AI 的 Embedding 召回 + LLM 组合输出。

如你所见，arxiv的论文也能获取到

Jina AI Reader 原理是通过 puppeteer 抓取网页内容，然后解析再保存成 markdown，这样的方法对于抓取静态的网页内容还可以，如果抓取更复杂的页面就无能为力，还是需要更专业的爬虫解析工具。

其实抓取url，将正文转换为良好的markdown格式的工具还有很多，比如：

code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown （偏向于更好地处理代码块）

   ChatGPT 系列研究报告（50个PDF），建了一个资料分享微信群

   搭建完美的技术写作环境，第1-8章

   数据分析入门：统计学基础知识总结

   ChatGPT、大模型、AI资料分享群