Sphere知识密集型 NLP 语料库

联合创作 · 2023-09-25 21:43

Sphere 是 Meta(Facebook)开源的 Web 语料库,作为一个通用的、非结构化的知识源,用于同时进行多个 KI-NLP 任务。

Meta 利用一个开放的网络语料库,加上强大的检索基线(而不是一个黑盒式的商业搜索引擎),这种方法有利于透明和可重复的研究,并为未来的研究开辟了一条道路,以比较为人类优化的搜索引擎和为神经网络设计的检索解决方案。作为 Web 语料库,Meta 使用 CCNet 的一个子集,涵盖 1.34 亿个文件,分成 9.06 亿个段落。

引用

如果你要在研究中使用此仓库的内容,请引用以下内容:

@article{DBLP:journals/corr/abs-2112-09924,
  author    = {Aleksandra Piktus and Fabio Petroni
               and Vladimir Karpukhin and Dmytro Okhonko
               and Samuel Broscheit and Gautier Izacard
               and Patrick Lewis and Barlas Oguz
               and Edouard Grave and Wen{-}tau Yih
               and Sebastian Riedel},
  title     = {The Web Is Your Oyster - Knowledge-Intensive {NLP} against a Very
               Large Web Corpus},
  journal   = {CoRR},
  volume    = {abs/2112.09924},
  year      = {2021},
  url       = {https://arxiv.org/abs/2112.09924},
  eprinttype = {arXiv},
  eprint    = {2112.09924},
  timestamp = {Tue, 04 Jan 2022 15:59:27 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2112-09924.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

安装

git clone git@github.com:facebookresearch/Sphere.git
cd Sphere
conda create -n sphere -y python=3.7 && conda activate sphere
pip install -e .

索引下载

Meta 开源预先构建的 Sphere 索引:

可以直接下载和解压相应的索引文件:

mkdir -p faiss_index

wget -P faiss_index https://dl.fbaipublicfiles.com/sphere/sphere_sparse_index.tar.gz
tar -xzvf faiss_index/sphere_sparse_index.tar.gz -C faiss_index

wget -P faiss_index https://dl.fbaipublicfiles.com/sphere/sphere_dense_index.tar.gz
tar -xzvf faiss_index/sphere_dense_index.tar.gz -C faiss_index
浏览 6
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报