S3 Plugin高性能 PyTorch 数据集库

联合创作 · 2023-09-25 22:40

S3-plugin 是一个高性能 PyTorch 数据集库,用于高效访问存储在 S3 存储桶中的数据集。它提供对任何大小数据集的流式数据访问,因此无需提供本地存储容量。该库旨在利用 S3 提供的高吞吐量以最小延迟访问对象。

用户可以根据需要灵活地使用地图样式或可迭代样式的数据集接口。该库本身与文件格式无关,并将 S3 中的对象呈现为二进制缓冲区(blob)。用户可以自由地对从 S3 接收到的数据应用任何额外的转换。

安装

您可以按照以下说明安装此软件包。

先决条件

  • 此安装需要 Python 3.6(或 Python 3.7)

  • 用于配置 S3 访问的 AWS CLI

  • Pytorch >= 1.5(S3-plugin 会安装最新的 Torch)

  • 注意:要在 Mac 上运行,必须安装 AWS_SDK_CPP

通过 Wheel 安装 S3-Plugin

# TODO Add final public wheels
aws s3 cp <S3 URI> .
pip install <whl name awsio-0.0.1-cp...whl>

配置

在从 S3 存储中读取数据之前,需要提供存储区域参数:

  • AWS_REGION:默认情况下,S3 使用区域端点,区域由AWS_REGION控制。如果AWS_REGION未指定,则默认使用us-west-2

要读取不可公开访问的存储中的对象,必须通过以下方法之一提供 AWS 凭证:

  • 通过aws configure安装和配置 awscli
  • 在本地系统上的 AWS 凭证配置文件中设置凭证,在 Linux、macOS 或 Unix 上位于:~/.aws/credentials
  • 设置AWS_ACCESS_KEY_IDAWS_SECRET_ACCESS_KEY环境变量
  • 如果您在 EC2 实例上使用此库,请指定一个 IAM 角色,然后授予 EC2 实例对该角色的访问权限

浏览 8
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报