ArchiveBox自托管互联网归档

联合创作 · 2023-09-27 03:35

ArchiveBox 是一个强大的、自我托管的互联网归档解决方案,可以收集、保存和查看你想离线保存的网站。

你可以在 Linux、macOS 和 Windows 上将其设置为命令行工具、网络应用和桌面应用(alpha)。

你可以一次给它提供一个URL,或者安排定期从浏览器书签或历史记录、RSS 等提要、Pocket/Pinboard 等书签服务等定期导入。它以多种格式保存你提供的 URL 的快照:HTML、PDF、PNG屏幕截图、WARC等开箱即用,并自动提取和保存各种内容(文章文本、音频/视频、git repos 等)。

其目标是将用户所关心的互联网部分以持久的、易于访问的格式自动保存下来,直到它消失后的几十年。

特性:

  • 免费和开放源代码,不需要注册任何东西,所有数据都存储在本地
  • 强大的、直观的命令行界面,具有模块化的可选依赖性
  • 全面的文档、活跃的开发和丰富的社区
  • 开箱即可提取各种内容:媒体(优酷-DL)、文章(可读性)、代码(Git)等。
  • 支持从多种类型的来源按计划/实时导入
  • 使用标准、持久、长期的格式,如HTML、JSON、PDF、PNG和WARC
  • 可作为一次性CLI、自我托管的Web UI、Python API(BETA)、REST API(ALPHA)或桌面应用程序(ALPHA)使用
  • 默认情况下将所有页面保存到archive.org,以实现冗余(可以禁用本地模式)。
  • 计划中:支持需要登录/付费墙/cookies的归档内容(正在运行,但在一些有待修复的问题发布之前,不建议使用)。
  • 计划中:支持在归档过程中运行JS,如广告屏蔽、自动滚动、模式隐藏、线程扩展等。

浏览 13
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报