直播线上实时翻译和流式字幕技术实践与应用-技术圈

直播线上实时翻译和流式字幕技术，区别于传统的线下翻译+字幕叠加硬件设备，创新性的采用云线上实时翻译+流式字幕叠加，通过API的方式实现直播视音频分离、音频转码、语音识别及转文本、文本翻译、自动审核、字幕返回等功能，并最终将流式字幕叠加到直播源流中，语音识别、转写及翻译准确率预计可达90%以上，并拥有自动校正功能，在保证字幕效果的情况下，极大的节省了使用成本，且系统支持动态扩缩容，便捷高效。

技术实现原理是将直播流进行音频流剥离，利用AI语音能力将直播流中的音频流进行实时识别、转写，同时进行多语言翻译及内容审核，过滤敏感内容，保障内容的安全合规，最终将识别的原语言和翻译语言以实时字幕的方式叠加到直播流中，让用户可以在观看直播画面、声音的同时可以获取文字维度的信息，极大的提升用户的观看体验。

技术方案架构图

模块组成：

业务实现流程：

● 业务层对接视频云PaaS平台，开启功能并配置翻译模板；

● 现场推流到CDN边缘节点；

● CDN转推到视频云PaaS平台；

● 视频云PaaS平台进行直播流调度及转发、音频流剥离并发送给AI语音服务平台；

● 视频云PaaS平台获取转写及翻译音频流接收，并进行音视频流合并；

● 将合成字幕后的视频云流进行转码、源流及含字幕流切片、录制等，支持时移回看、录制文件回放等，然后将含字幕的直播流转推给CDN；

● 终端平台播放器从CDN获取转码流播放。

技术优势：

● 分析语音数据的处理速度，拿到字幕数据的延迟，在输入层对视频数据进行延迟控制，最终可以控制在1s以内，实现直播声音、画面、字幕完美同步的良好体验；

● 字幕模板动态灵活配置，支持自定义位置、字体大小、颜色、背景色等；

● 支持灵活配置开启或关闭字幕：比如中场休息、播放宣传片或者其他广告内容时，可以关闭字幕；

● 区别于传统的线下翻译+字幕叠加硬件设备，创新性的云线上实时翻译+字幕叠加，通过API的方式实现全部流程，且只支持的并发路数可以动态扩缩容，提升使用和运维效率；另外相比传统的线下实现方式，综合降本预计高达95%以上。

实践过程中遇到的难点：

● 听写以及翻译的准确性，需要根据不同的场景进行定制训练；

● 声音、画面、字幕的同步控制。

技术应用场景：

该技术可以广泛的应用于电商、会展、融媒、教育等领域，比如在电商领域，可以帮助企业聚焦直播带货出海业务场景，通过云端实时翻译+多语言字幕的技术手段，降低海外地区用户的观看门槛，提升直播观看量，从而提升商品购买转化率和GMV；在会展行业，可以完美替代同传和线下硬件设备，大大降低会展直播成本。

技术实践：

该技术在2021年相继应用于服贸会、亚欧商品贸易博览会、商洽会等国际性展会项目中，具体效果通过下面的视频来展示：