如此“爬虫”?代码全省了

共 1737字,需浏览 4分钟

 ·

2024-04-27 10:40










大家好,我是章北海


Jina AI 开源了 RAG 数据处理中的关键组件:“网页数据爬取” ——Reader,目前 3300+ Star⭐️


项目地址:https://github.com/jina-ai/reader


Jina AI Reader 特征:





  1. 免费使用



  2. 开源



  3. 延迟大概 2S 内,复杂的内容可能需要更多时间



  4. 提供 stream 模式,方便缓解复杂内容等待



  5. 不支持多语



  6. 能够处理 PDF 如 arXiv,但是不是一个通用的 PDF 抽取器



  7. 未来会支持处理图片或视频总结



  8. 支持在线网页



  9. 5 分钟之内上传的内容会缓存


说它是爬取其实有点“过”了,因为这个工具主要服务于将任何 url 转化为 LLM 友好的格式(比如 markdown),然后可以再针对这些内容集成不同的模型。


用法很简单:在 https://r.jina.ai
中填入任何 Url 即可获取到 LLM 友好的 Parsed Content( Markdown) 比如我公众号这篇文章


网址复制进去:https://r.jina.ai/https://mp.weixin.qq.com/s/z0H_5eEF3hGSIayYLEMO1A


它可以免费使用,提供 Stream 模式可流式读内容(简单内容2s内可获取)


curl -H "Accept: text/event-stream" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page




也可以访问 https://jina.ai/reader/,尝试在线 Demo。


填入链接,点击 FETCH CONTENT 即可获取到内容,甚至提供了基于获取的内容直接提问,结合 Jina AI 的 Embedding 召回 + LLM 组合输出。


如你所见,arxiv的论文也能获取到


Jina AI Reader 原理是通过 puppeteer 抓取网页内容,然后解析再保存成 markdown,这样的方法对于抓取静态的网页内容还可以,如果抓取更复杂的页面就无能为力,还是需要更专业的爬虫解析工具。


其实抓取url,将正文转换为良好的markdown格式的工具还有很多,比如:





  • https://markdowndown.vercel.app





  • web-scraper(open source): https://github.com/zzzgydi/webscraper





  • code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown (偏向于更好地处理代码块)





可能是全网最全的速查表:Python Numpy Pandas Matplotlib 机器学习 ChatGPT等



ChatGPT 系列研究报告(50个PDF),建了一个资料分享微信群



搭建完美的技术写作环境,第1-8章




数据分析入门:统计学基础知识总结




ChatGPT、大模型、AI资料分享群





浏览 122
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报