Python调用百度API实现语音识别(一)
咪哥杂谈
本篇阅读时间约为 2 分钟。
1
前言
有了上篇文章野狼disco的音频,今天就来带大家玩一下百度的API,如何借用百度 API 的语音识别功能,将我们的音频转为文字。最终落地到 word 中。
当然,转为文字后,也为之前语音机器人做了铺垫,转换的文字可以写入到程序中,后续机器人朗读声音而用。
2
百度 API 官网准备工作
1. 搜索
2. 开放能力 -> 语音技术 -> 语音识别
可以看到这里有三种语音类型,点哪个都行,这里选择语音识别即可。
先点击技术文档看下:
左侧实际上只包含了标准版和极速版,没有看到长语音版。
对比了下价格,果断选择了标准版!自己玩,怎么实惠怎么来!
看了上面普通版的文档,有几点需要注意的:
1. 格式
原始 PCM 的录音参数必须符合 16k 采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。
百度开放平台
2. 时长
目前系统支持的语音时长上限为60s,请不要超过这个长度,否则会返回错误。
百度开放平台
3
注册获取key
这意味着你需要去人家平台注册,获取到人家平台给你颁发的身份验证。也就是 key 之类的信息。
查看 Python SDK 文档发现:
文档页的右上侧,有个控制台,点进去,自己注册下。
1. 左侧音频图标 -> 创建应用
2. 填写信息
3. 完成
4
总结
前戏已备好,key等信息已经有了。只需要记住上面说的两个注意点即可。
下一篇开始我们真正的编码。
有什么问题,欢迎评论区留言!
Python打造自己的语音机器人设计思路Python实现电脑录音(含音频基础知识讲解)
评论