“智感超清”之HDR技术落地实践

音视频开发进阶

共 6256字,需浏览 13分钟

 ·

2021-09-25 15:49

本文由百度智能云-视频云音视频处理技术架构师——邢怀飞,在百度开发者沙龙线上分享的演讲内容整理而成。
内容从百度智能视频云的核心竞争力:“智感超清”出发,梳理了智能视频云相关的产品概念和技术。在详细介绍了HDR技术的概念基础上,结合相关“智感超清”能力,重点分享了HDR技术的应用实践。
文/ 邢怀飞
整理/ 百度开发者中心
视频回放:https://developer.baidu.com/live.html?id=7
直播预告:https://developer.baidu.com/live.html?id=9

本次分享的主题是:智感超清之HDR应用实践。内容主要分为以下三个部分:
  • 智能视频云3.0 & 智感超清介绍

  • HDR技术概念解析

  • “智感超清” HDR技术应用实践



01

百度智能视频云3.0&智感超清介绍


百度智能视频云3.0介绍


上图就是百度智能视频云3.0的全景图。可以用三句话概括:

第一,云智一体化
即百度目前所有的视频云产品都实现了智能化。可以看到,图中标注的部分,“智感超清视频处理”的核心能力就包括了:智能编码、智能处理、智能抽帧、版权保护。其中,“智感超清”是视频处理产品的一个核心竞争力品牌。

第二,服务平台化
结合底层的云智一体的能力,我们搭建了两个平台:视频创作分发平台,视联网感知平台
其中,创作分发平台面向泛媒体和泛互联网场景,可以提供端到端一站式的视频服务。而视联网感知平台,面向传统监控产业,对视频端设备和泛视频数据流进行统一接入、分析和管理。

第三,应用场景化
结合具体的应用场景,百度智能视频云在泛互联网、泛媒体和泛产业方向提供了定制化的智能视频方案覆盖互动娱乐、内容生产、智能分析、远程实时通讯、生产管理、安全管理等场景。

“智感超清”MCP视频处理产品


以上是智感超清 MCP视频处理产品的一个功能框架图。下面简单介绍一下每一层的结构与内容。

接入层与其他云上产品类似,MCP视频处理产品提供两个主要入口:Console、API&SDK。
用户可以通过控制台(Console)进入并进行相应的配置。而对于B端的客户,更可以灵活地采用API/SDK的方式对产品进行访问。

基本功能层:包括基础的云上转码的功能,也包括基本的视频剪辑/拼接/截图/字幕叠加等附件的功能。
云上转码可以把用户上传的视频进行一个全格式、全协议的转换,以满足于不同客户场景下、不同网络情况、不同终端的适配,并可以灵活的做多码流切换。

智能视频处理层:这部分是“智感超清”整个产品核心打造的能力。抽象出以下三个层面介绍:
  • 第一:智能画质提升
    通过AI的手段或其他传统的手段对输入的视频进行预处理,然后再进行转码处理,会带来比远视频更好的视觉体验。其中,智能HDR转换,也是和今天分享强相关的技术。
  • 第二: 智能老片修复
    之所以把这个门类单独出来,是因为针对这些老片,我们需要有特定的技术进行修复,以达到升级的用户体验。具体功能包括:划痕去除,噪点去除和智能上色。
  • 第三: 智能视频编辑
    这部分是一些基本的视频编码能力。核心都是通过相应的AI技术去实现的。

    以上三个功能模块构成了智能视频处理的核心能力。 

智能视频编码:这一层是比较底层的视频编码能力介绍 。
主要包括:内容指定编码、ROI编码、4k/8k编码 、还包括百度自研的BD265编码器等。

介绍完产品框架图,我们再介绍一下智感超清的核心竞争力在技术上如何实现。

第一部分是智能视频处理。
智能视频处理的核心目标是提升画质 。它能够通过视频预处理的方式使得在视频的分辨率、帧率、色深、色域等各个方面都能有一个较大提升。

其中比较核心的能力包括:SDR2HDR、超分、插帧。

在超分和插帧上都是基于AI模型目前,在超分模型上,已经研发了视频级别的一个超分模型;在开源数据集上,已经达到了SOTA;在插帧的算法上,也有自研的算法,可以实现任意帧的一个插帧。

在智能老片修复上,百度也和其他的单位合作,构建了一个完整的数据集。比较典型的场景如:胶片上老片的物理损伤,包括其它磁带的一些损伤,“智感超清”产品通过对图像画质进行多维处理,能够在不增加视频带宽成本的情况下,实现画面质量的大幅提升,打造视频的“极质”体验。

第二部分是智能视频编码。
智能视频编码方面,已经研发上线了AI驱动自适应的编码。该模型可以根据视频本身内容分析,预测出最优的视频码率与分辨率,并能够与ABR协议结合,生成一组最优的编码配置。与此同时,构建了一个数百万场景级别的数据集,将VMAF当成视频质量评分的一个指标。

不仅如此,百度还自研了BD265编码器,开发了60多种算法,并考虑主观驱动的算法去提升视频的画质并节省码率。
对比开源编码器,BD265编码器提升了30%的码率,速度上也提升了2~4倍。该编码器参加了去年的MSU大赛,在VMAF上也达到了top2的水平。这个是我们前面对智能视频处理和编码的一个简单介绍。

通过前面的简单介绍,相信大家对智能视频云有一个基本的认识,并对“智感超清”产品有一个初步的了解。在下一章节,将给大家重点介绍HDR相关的技术。


02

HDR技术概念解析


什么是HDR



HDR的特点可以用三个“更”字概括。
  • 更高的亮度范围
    相对于 SDR来说,HDR可以达到10000nits的最高亮度。这使得它能够更好地展示明暗对比,在亮度方面,更加贴近人眼的对物理世界的感官认知。(可以参考上图HDR和SDR的效果对比)
  • 更广的色彩范围
    上图左下角示例,是一个CIE 1931色彩空间的表达。传统的709领域(即:高清),能够覆盖35.9%的色彩范围,而到了2020领域(即:超高清),已经能够覆盖75.8%的色彩范围。

    那么,如何去表达这种更宽的色彩范围呢?需要我们更高的比特也就是更高的位深去表示。

    这也对应了HDR的第三个特性:
  • 更深的色深(位深)
    基本上hdr都是在10比特,更高的要达到12比特才能达到。以上是我们对HDR效果的一个简单介绍。

HDR端到端系统流程


之所以想介绍这个流程,是因为HDR它不是一个单点的技术概念,它涵盖了从视频的拍摄、制作 、视频编码、解码、播放、传输等一系列流程。需要整个HDR技术生态上的企业相互配合,才能完成整个HDR端到端的系统。下图形象的展示了整个系统流程:
视频录制(光电转换)→后期加工(产生元数据)→获取HDR视频及相关的内容元数据→压缩传输→解码→显示器显示播放(电光转换)

HDR技术相关概念

1. 光电/电光传输曲线
将自然界中真实场景转换为屏幕上显示出来的图像,需要经过两个主要步骤:
1.  通过摄影设备,将外界光信息转换为图像信息存储。本质上存储为数字信号。
2.  通过显示设备,将图像信息转换为屏幕输出的光信息。

整个过程中,信息流要经过两个重要的非线性映射,才能形成我们在显示设备上看到的图像。这两个重要的非线性映射过程,我们又称光电/电光传输曲线。
下面介绍三种常见的光电/电光传输曲线
  • Gamma曲线
    是一种在传统的SDR显示设备上被广泛使用的转换曲线。
    对应的标准是:BT.1886,峰值亮度仅为100nits。
    随着显示设备亮度范围的提升、图像编码bit depth的提升,使得传统Gamma校正不再适用HDR的光电转换过程。

  • PQ曲线
    由杜比实验室根据Barten的人眼模型提出的电光转换曲线。峰值亮度可以达到:10000nits。
    优点:能够提供更高的亮度范围。

  • HLG曲线
    由BBC和NHK联合提出的光电转换曲线。
    优点:兼容SDR的显示和播放。在广电领域被广泛应用。

2. HDR元数据
定义:描述视频或图像处理过程中的关键信息/特征。产生于视频的制作阶段,主要包含色彩和亮度两大方面信息。

分类:按构成结构上分类,可分为静态元数据和动态元数据。
  • 静态元数据:视频中采用单一的元数据去控制每一帧的色彩和细节,元数据并不会发生变化。易造成某些大动态场景的画面暗部或者高亮细节丢失。
  • 动态元数据:视频中的采用变化的元数据去控制每一帧的色彩和细节。通过动态元数据,我们还可以根据用户的显示情况,利用tone-mapping (色调映射)的算法进行更多的适配。

3. HDR常见格式
前面也提到,HDR不是一个单点的技术概念,而是一个端到端的生态。从上述图中也可以看到,HDR的格式生态十分的复杂,正是由于此,HDR的标准有些割裂,并不像视频编码一样那么清晰。若按照光电/电光传输曲线的种类来划分,可以分为以下几个大的标准类型:
  • HDR10:由美国CT组织牵头的一个开放标准。完全开源免费。
  • HLG:是由BBC和NHK联合开发的高动态范围HDR的一个标准。HLG不需要元数据,能后向兼容SDR。
  • HDR10+:为抗衡DolbyVision, 由三星推出的一个部分免费的标准。采用的是动态元数据。
  • DolbyVision:Dolby Vision使用基本层+增强层来实现向下的兼容性。并使用动态元数据来描述所有场景。但它是一个收费标准,授权体系较为复杂。
  • HDR Vivid:是国产的一个标准。在现有传输曲线和色彩空间标准的基础上,增加动态元数据的描述,开源免费且兼容性好。


03

“智感超清”HDR技术应用实践


典型超高清HDR应用需求



随着5G通信的发展,给视频行业带来全新的变革,对应的终端能力也越来越强,互联网超高清应用空前爆发,这对超高清视频的要求也越来越高。通常,我们所说的超高清视频包括以下六要素
  • 高分辨率
  • 高帧率
  • 色深解析
  • 宽色域
  • 高动态范围
  • 全景声音频
这其中,4K、HDR等技术贯穿整个从采集、制作、呈现等整个端到端的流程。

下面看一下需要如何的技术储备,才能实现如此端到端的流程?

HDR处理流程与需求分析


内容生产:
用户拍摄HDR视频上传到云端。在这一阶段,平台需要具备以下HDR的处理能力:
  • HDR视频云端编辑能力
  • SDR素材适配
  • HDR中间层(Mezz)文件的编码
  • 元数据的生成
  • 元数据的透传

存储(压缩)/处理(传输)阶段
在HDR视频编码和处理阶段,需要以下过程:
  • HDR转SDR。  这涉及到重要的色调映射过程。
  • 多种输入格式自动适配。
  • SDR转HDR。  可以通过AI的方式,将SDR转换为HDR。
  • HDR格式互转能力。HDR的格式多样,能够支持各种HDR格式互转十分重要,如HDR10转HLG。
  • HDR元数据的写入、透传。在原始HDR视频基础上,能否在码率压缩后写入,这也对云端能力提出了要求。

HDR显示:
在视频播放阶段,需要一定的策略在端上做相应的适配。具体来说,需要实现:
  • HDR终端视频播放
  • SDR终端视频播放
  • 端上自动适配
在接下来的章节,会详细分析各项技术的实现过程。

HDR转SDR

HDR转SDR的过程实际上是一个色调映射的过程。(Tone Mapping Operator)
HDR和SDR视频的亮度空间和色彩范围都差别很大,这其中的转换过程较为复杂。通俗理解,色调映射就是一个将HDR的图像或者视频,转换为SDR的图像,并在SDR显示设备正确显示的技术。
以下是典型色调映射处理的流程:
1. 预处理
通过预处理,将图像的亮度信息转换为log域。
2. 图像分解
通过图像的保边滤波器,将图像分解成基础层和细节层。
3. 亮度信息提
将提取出的基础层亮度信息通过不同的色调曲线进行压缩,并将压缩后的亮度信息加在细节层上。
4. 后置处理
通过后置处理,进行颜色校正,得到SDR图像。
在色调映射过程中,最重要的是如何选择不同的实现算法。这需要结合实际的应用场景。

SDR转HDR

SDR转HDR也是一个十分复杂的过程,不仅仅是变换颜色空间和动态范围,更需要考虑暗部细节增强与过曝细节的修复、对比度的提升、色调保持不变、色彩增强处理以达到HDR的要求以及通过算法实现对噪声的控制。
在亮度方面:希望通过SDR视频中残留的,过度曝光和曝光不足区域的信息,尽可能地恢复这些区域内丢失的细节。
在色彩方面:通过SDR视频中受限的色彩,估计出原始场景的色彩,让恢复出的HDR视频的色彩尽可能地接近原始场景中丰富而真实的色彩。

上图可以看到传统方法对SDR转HDR的过程,主要是通过线性转化的方式,对过曝/欠曝的区域进行重建。
目前AI的方法,在超分和增强领域用的非常多,由于它使用的是非线性的表达,一般认为通过AI的方法可以实现SDR转HDR的更好效果。

基于AI的端到端SDR转HDR方案


特点:
  1. 采用全局/局部信息融合的方式。
  2. 采用Residual Connection残差学习。
  3. Squeeze-Excitation,channer维度自注意力算法加持。
  4. 超高清预测分辨的速度快。

以下是基于AI的SDR到HDR的效果展示:

可以看到,基于AI的SDR到HDR的转换,在提升动态范围的同时,还补充了曝光不足区域(阴影)的部分细节。整个画面细节更丰富,层次更分明,整体的色彩饱和度上也有明显的提升。
在AI模型的训练过程中,数据的积累十分重要。这也是该方案在后续需要优化的地方。

HDR格式之间的转换

HDR的格式多样,所以能够支持HDR格式之间相互转换十分必要。与转码类似,HDR格式上也需要做一个统一分发。
要理解HDR格式相互转换的这个过程,需要对PQ系统模型和HLG系统模型有一个深刻的理解。
1. PQ系统模型
环境光经过光光转换曲线、逆电光转换曲线,变换成PQ的电信号。在显示阶段,经过电光转换曲线,变成显示光。

2. HLG系统模型
环境光经过电光转换曲线,变换成hlg的电信号。在显示阶段,通过逆电光转换曲线、光光转换曲线,变成显示光。
HLG系统模型从流程上看,基本与PQ系统模型是相反的。

HEVC HDR支持

这部分以HEVC为例,重点介绍编码在HDR上是如何承载的。
HEVC对元数据的承载包含两个部分的重要信息。
  • VUI信息
    描述编码信号的参数或属性、色彩空间、传输曲线等信息。
  • SEI信息 
    描述制作的描述性信息(或色彩容积转换)、Tone mapping信息、Color remapping信息、Knee function信息。
    对HDR元数据的解析也是非常重要的能力。
    只有将原视频的HDR元数据保存并解析下来,才能将处理完的元数据写入以保持HDR的效果。

“智感超清”HDR客户落地案例

“智感超清”HDR目前已经服务各行业的客户,满足用户需求。
  • 在广电领域行业,能够满足用户标清、高清到4k转换的需求。
  • 在电影行业,通过AI技术对老片进行修复,做超高清处理,提升整个在处理过程中的效率,降低成本消耗,同时让老旧片子真正重新焕发生命力。
  • 在新媒体行业,依托百度智感超清的诸多能力优化视频体验,也增加了很多视频编辑能力,包括非线编能力,极大的提升编辑在创作内容过程中的效果。
  • 在互联网领域,服务于互联网视频用户,一方面提升了视频质量,另一方面降低了带宽成本 解决UGC场景下视频质量较差的问题。
    以上是老师的全部分享内容。

百度开发者沙龙全场景音视频技术解析第三期,将于9月23日19:00进行,届时邀请到百度智能云视频云技术架构师——柯于刚老师做客直播间,为大家揭秘音视频抗弱网技术。扫描下方二维码报名,锁定精彩!




浏览 61
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报