Sphere知识密集型 NLP 语料库
Sphere 是 Meta(Facebook)开源的 Web 语料库,作为一个通用的、非结构化的知识源,用于同时进行多个 KI-NLP 任务。
Meta 利用一个开放的网络语料库,加上强大的检索基线(而不是一个黑盒式的商业搜索引擎),这种方法有利于透明和可重复的研究,并为未来的研究开辟了一条道路,以比较为人类优化的搜索引擎和为神经网络设计的检索解决方案。作为 Web 语料库,Meta 使用 CCNet 的一个子集,涵盖 1.34 亿个文件,分成 9.06 亿个段落。
引用
如果你要在研究中使用此仓库的内容,请引用以下内容:
@article{DBLP:journals/corr/abs-2112-09924,
author = {Aleksandra Piktus and Fabio Petroni
and Vladimir Karpukhin and Dmytro Okhonko
and Samuel Broscheit and Gautier Izacard
and Patrick Lewis and Barlas Oguz
and Edouard Grave and Wen{-}tau Yih
and Sebastian Riedel},
title = {The Web Is Your Oyster - Knowledge-Intensive {NLP} against a Very
Large Web Corpus},
journal = {CoRR},
volume = {abs/2112.09924},
year = {2021},
url = {https://arxiv.org/abs/2112.09924},
eprinttype = {arXiv},
eprint = {2112.09924},
timestamp = {Tue, 04 Jan 2022 15:59:27 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2112-09924.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
安装
git clone git@github.com:facebookresearch/Sphere.git
cd Sphere
conda create -n sphere -y python=3.7 && conda activate sphere
pip install -e .
索引下载
Meta 开源预先构建的 Sphere 索引:
- Pyserini 兼容的稀疏 BM25 索引: sphere_sparse_index.tar.gz - 775.6 GiB
- 分布式 faiss 兼容的密集 DPR 索引: sphere_sparse_index.tar.gz - 1.2 TiB
可以直接下载和解压相应的索引文件:
mkdir -p faiss_index
wget -P faiss_index https://dl.fbaipublicfiles.com/sphere/sphere_sparse_index.tar.gz
tar -xzvf faiss_index/sphere_sparse_index.tar.gz -C faiss_index
wget -P faiss_index https://dl.fbaipublicfiles.com/sphere/sphere_dense_index.tar.gz
tar -xzvf faiss_index/sphere_dense_index.tar.gz -C faiss_index
评论