OpenAI-WhisperOpenAI 开源的语音识别系统-技术圈

OpenAI-WhisperOpenAI 开源的语音识别系统

联合创作 · 2023-09-25 21:43

Whisper 是 OpenAI 开源的自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别，Whisper 还能实现多种语言的转录，以及将这些语言翻译成英语。

设置

我们使用 Python 3.9.9 和 PyTorch 1.10.1 来训练和测试我们的模型，但代码库预计将与 Python 3.7 或更高版本以及最新的 PyTorch 版本兼容。代码库还依赖于一些 Python 包，以下命令将从该存储库中提取并安装最新提交及其 Python 依赖项

pip install git+https://github.com/openai/whisper.git

它还需要在你的系统上安装命令行工具 ffmpeg，大多数包管理器都可以使用：

# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg

# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg

# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg

# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg

目前 Whisper 有 9 种模型（分为纯英文和多语言），其中四种只有英文版本，开发者可以根据需求在速度和准确性之间进行权衡，以下是现有模型的大小，及其内存要求和相对速度：

大小	参数	纯英文模型	多语言模型	所需显存	相对速度
tiny	39 M	tiny.en	tiny	~1 GB	~32x
base	74 M	base.en	base	~1 GB	~16x
small	244 M	small.en	small	~2 GB	~6x
medium	769 M	medium.en	medium	~5 GB	~2x
large	1550 M	N/A	large	~10 GB	1x

编辑分享