Python调用百度API实现语音识别(一)

共 843字，需浏览 2分钟

·

2019-11-19 23:29

咪哥杂谈

本篇阅读时间约为 2 分钟。

1

前言

上篇文章介绍了下如何用 Python 剪辑视频，想回顾的同学可以拉到文章最下面，有历史链接。
有了上篇文章野狼disco的音频，今天就来带大家玩一下百度的API，如何借用百度 API 的语音识别功能，将我们的音频转为文字。最终落地到 word 中。
当然，转为文字后，也为之前语音机器人做了铺垫，转换的文字可以写入到程序中，后续机器人朗读声音而用。

2

百度 API 官网准备工作

1. 搜索

2. 开放能力 -> 语音技术 -> 语音识别

可以看到这里有三种语音类型，点哪个都行，这里选择语音识别即可。

先点击技术文档看下：

左侧实际上只包含了标准版和极速版，没有看到长语音版。

对比了下价格，果断选择了标准版！自己玩，怎么实惠怎么来！

看了上面普通版的文档，有几点需要注意的：

1. 格式

原始 PCM 的录音参数必须符合 16k 采样率、16bit 位深、单声道，支持的格式有：pcm（不压缩）、wav（不压缩，pcm编码）、amr（压缩格式）。
百度开放平台

2. 时长

目前系统支持的语音时长上限为60s，请不要超过这个长度，否则会返回错误。
百度开放平台

3

注册获取key

不论是之前写过的调用高德api，还是这次的百度api，都可以找到共性，你在用别人提供的接口时，必须要有身份验证这一步。
这意味着你需要去人家平台注册，获取到人家平台给你颁发的身份验证。也就是 key 之类的信息。
查看 Python SDK 文档发现：

文档页的右上侧，有个控制台，点进去，自己注册下。

1. 左侧音频图标 -> 创建应用

2. 填写信息

3. 完成

4

总结

前戏已备好，key等信息已经有了。只需要记住上面说的两个注意点即可。

下一篇开始我们真正的编码。

有什么问题，欢迎评论区留言！

▼往期精彩回顾▼用Python玩转视频剪辑，秀的飞起！
Python打造自己的语音机器人设计思路 Python实现电脑录音（含音频基础知识讲解）

你点的每个在看，我都认真当成了喜欢

浏览 42

点赞

收藏

分享

举报

评论

图片

表情

python实现语音识别

新机器视觉

Python Dragonfly语音识别框架

Dragonfly是一个用Python开发的语音识别框架。提供高级对象模型，可编写简单脚本来实现语音的识别。当前支持语音识别引擎有：DragonNaturallySpeaking(DNS),aprod

Python Dragonfly语音识别框架

Dragonfly 是一个用 Python 开发的语音识别框架。提供高级对象模型，可编写简单脚本来实

Python实现手势识别。

Python实现手势识别

Python文字识别OCR案例：百度AI实现OCR识别（源代码） !

最近研究OCR技术实现较多，各种OCR实现方式做了一些测试和对比，针对不同的业务需要采用不同的实现方式，今天写的这个案例是利用百度AI来实现的通用OCR文字识别。实现方式非常简单，十几行代码就能搞定，但识别率如何就要看图片质量和所用字体了。从根本上来说，OCR的技术实现有两种方式：第一种较为简单，就是调用各个云平台提供的OCR服务来识别图片上的文字。这种实现方式的优点是简单易用，识别率较高，灵活性较弱，定制化不容易实现，但是需要上传图片信息，如果图片上包含敏感信息就有数据安全性和隐私性方面可能的问题，而正是这最后一点让很多客户对这种OCR实现方式敬谢不敏。第二种实现起来较为复杂，就是在本地实现OCR文字

Python 通过 requests 调用 Binance API

Python中文社区

NLRMashapeClientMashape API 调用

NLRMashapeClient 基于 AFNetworking 构建，NLRMashapeClie

TLSphinxiOS 语音识别

TLSphinx是一个围绕着Pocketsphinx的封装器，一个基于CMUSphinx的便携库，允许应用程序执行的语音识别而无需将音频移出设备。示例：import TLSphinxlet hmm =

iOS 语音识别

OpenEars是一个开源的iOS类库，用于在iPhone和iPad实现语音识别功能。本demo利用

点赞

收藏

分享

举报