如此“爬虫”?代码全省了

机器学习算法与Python实战

共 1737字,需浏览 4分钟

 ·

2024-04-27 10:40

大家好,我是章北海

Jina AI 开源了 RAG 数据处理中的关键组件:“网页数据爬取” ——Reader,目前 3300+ Star⭐️

项目地址:https://github.com/jina-ai/reader

Jina AI Reader 特征:

  1. 免费使用
  2. 开源
  3. 延迟大概 2S 内,复杂的内容可能需要更多时间
  4. 提供 stream 模式,方便缓解复杂内容等待
  5. 不支持多语
  6. 能够处理 PDF 如 arXiv,但是不是一个通用的 PDF 抽取器
  7. 未来会支持处理图片或视频总结
  8. 支持在线网页
  9. 5 分钟之内上传的内容会缓存

说它是爬取其实有点“过”了,因为这个工具主要服务于将任何 url 转化为 LLM 友好的格式(比如 markdown),然后可以再针对这些内容集成不同的模型。

用法很简单:在 https://r.jina.ai 中填入任何 Url 即可获取到 LLM 友好的 Parsed Content( Markdown) 比如我公众号这篇文章

网址复制进去:https://r.jina.ai/https://mp.weixin.qq.com/s/z0H_5eEF3hGSIayYLEMO1A

它可以免费使用,提供 Stream 模式可流式读内容(简单内容2s内可获取)

curl -H "Accept: text/event-stream" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page

也可以访问 https://jina.ai/reader/,尝试在线 Demo。

填入链接,点击 FETCH CONTENT 即可获取到内容,甚至提供了基于获取的内容直接提问,结合 Jina AI 的 Embedding 召回 + LLM 组合输出。

如你所见,arxiv的论文也能获取到

Jina AI Reader 原理是通过 puppeteer 抓取网页内容,然后解析再保存成 markdown,这样的方法对于抓取静态的网页内容还可以,如果抓取更复杂的页面就无能为力,还是需要更专业的爬虫解析工具。

其实抓取url,将正文转换为良好的markdown格式的工具还有很多,比如:

  • https://markdowndown.vercel.app

  • web-scraper(open source): https://github.com/zzzgydi/webscraper

  • code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown (偏向于更好地处理代码块)

可能是全网最全的速查表:Python Numpy Pandas Matplotlib 机器学习 ChatGPT等

ChatGPT 系列研究报告(50个PDF),建了一个资料分享微信群
搭建完美的技术写作环境,第1-8章
数据分析入门:统计学基础知识总结
ChatGPT、大模型、AI资料分享群

浏览 82
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报