长江论道|百视通高级技术专家郑炜:百视通AI应用的思考和实践

共 5863字,需浏览 12分钟

 ·

2024-05-30 17:30

2024年5月23-24日,由流媒体网主办,湖北长江云新媒体集团、湖北电信、湖北移动、湖北联通协办的「长江论道暨第27届智能视听与科技创新产业论坛」在武汉隆重举行。

本届论道以“洞见新格局·智变新视听”为主题,聚焦大屏格局之变,寻找视听向新路径。在24日下午举行的“AI+新视听创新论坛”上,百视通高级技术专家郑炜做了主题为《百视通AI应用的思考和实践》的演讲。

以下为演讲全文:

各位领导、各位嘉宾,大家下午好!非常高兴能够参加这次的AI+新视听创新论坛,和大家一起探讨AI技术是如何赋能新视听行业的,并分享一些百视通对AI应用的思考和实践。

本次分享的内容主要从三个方面展开。首先是回顾媒体AI发展历程;然后说一说百视通的AI能力开放平台规划;以及百视通在AI应用场景的探索实践。

媒体AI发展态势和百视通的理念

人工智能的发展历程是曲折起伏的,且经过了很长时间的历史沉淀。1956年到1980年左右,出现了第一次人工智能的发展浪潮,早期AI被认为是一种赋予逻辑推理能力的机器,由于硬件设施难以适应指数级增长的计算复杂度而遇冷。从1980年起,机器学习开始兴起,各种专家系统开始被人们广泛应用。不幸的是,随着专家系统的应用领域越来越广,问题也逐渐暴露出来。专家系统应用有限,且经常在常识性问题上出错,因此人工智能迎来了第二个寒冬。2000年后,由于人工神经网络的不断发展,“深度学习”的概念被提出,之后,深度神经网络和卷积神经网络开始不断映入人们的眼帘。深度学习的发展又一次掀起人工智能的研究狂潮。

直至2022年末,以ChatGPT为代表的生成式人工智能应用快速破圈,火爆全网,当然也引起了媒体行业的广泛关注。但我们也发现任何一种深度学习的AI算法都不能保证结果的准确性,大模型存在“一本正经的胡说八道”问题,即AI幻觉,故应用场景需要谨慎选择。

今年,以Sora为代表的视觉生成大模型又横空出世,相较于传统视频生成模型,Sora展现出了一系列显著的差异与创新之处,包括效果更逼真、生成高清视频的时长突破至60s、具备镜头语言和世界模型以及多模态的生成能力。

生成式人工智能技术引起了媒体和互联网行业相关应用领域的关注,包括游戏、影视、广告、教育、虚拟人及电商等,生成式人工智能的应用将推动内容生产降本增效,带来更多自由的交互体验和商业场景,推动媒体行业价值重估。与此同时,我们也要看到,目前的AI技术还是更适合于辅助人类工作,而不适宜直接替代人类工作。因此,百视通认为人工智能技术的应用应该结合企业实际需求,将人工智能技术作为一种技术能力,全面驱动业务发展。

2024年,百视通提出了“ALL IN AI”战略。我们基于多年技术积累和产业实践,结合领先的AI技术和云计算能力,构建了百视通AI能力开放平台,合理利用AI能力,助力媒体内容的生产、制作、审核、推荐等全流程环节。同时,沉淀AI资产,将训练过程中产生的算法、数据、模型变成企业能力。

百视通AI能力开放平台

百视通AI能力开放平台以基础智算能力为底座,我们也在扎实推进推理能力、训练能力及算力能力的构建。在此基础上,平台打造了智能标签、智能翻译、智能制作、视频理解、视频增强、智能推荐及智能语音七大AI能力。百视通结合深刻的业务理解,综合运用这七大AI能力,全面提升媒体内容生产、制作、播出、内容安全以及运营能力,并赋能智能审核、民语通、图片制作、高光时刻、视频超分、智能推荐、无障碍视听等创新产品。

百视通积累多年内容运营管理经验,构建标签字段88个。以更加细致的四维媒资标签体系,包括内容分类标签、属性拓展标签、运营信息标签及视频结构化标签,推动视频内容管理、搜索、推荐和个性化服务方面的“All in AI”战略。通过AI多模态理解能力,可以自动生成视频结构化标签,从而应用于精彩片段、智能审核、内容二创等业务场景。

即多语种译制能力,包括多语种语音识别、声纹识别、多语种字幕识别、多语种文本翻译、多语种图片翻译、多语种影视信息翻译、多语种语音合成及多语种字幕生成等能力。目前智能翻译的准确度与谷歌是相当的。

百视通智能制作以图片制作为主,AI更多充当创意辅助与质量提升,现阶段仍需结合传统设计工具才能完成设计交付。长期来看,AI制图在创意构思、设计执行、后期处理方面可以大幅度提升设计团队生产力和创新能力,同时通过设计质量和效率带动业务增长。

视频理解旨在通过深度学习等智能技术,自动化识别和解析视频中的内容,形成“高光时刻”精彩看点。辅以智能推荐技术,将传统点播内容高光时刻以直播流进行重新编排,提取每集视频中精华部分展示给用户,以直播化的形式全新呈现。以“高光时刻”和“短带长”引导新增订购,提高用户点击率和订购转化率。

以高清视觉体验为核心,通过画质增强修复、SDR转HDR、智能超分、智能插帧等技术手段提升影像质量,为用户提供卓越的观感体验。同时,在音频方面支持Audio Vivid标准,给用户身临其境的听觉享受。

百视通聚焦主流价值引领,紧密围绕运营需求,自主研发推荐引擎,为业务侧实现包含精准分析→运营干预→智能推荐→效果评估的智能推荐运营平台打造全方位智能推荐服务。基于用户群像的运营方式,可以通过用户画像标签来分群投放,投放过程的AB分流实验总结,以及投放后整个用户全流程链路的行为分析,都可以通过平台来不断地优化。

传统的智能语音技术主要是利用词法分析、句法分析、语义分析及语用分析,百视通追求更自然的人机交互方式,利用语音大模型,提高语义理解的准确率,优化语音合成的自然度,使得生成的语音更加贴近真实人的声音,为用户带来更加智能、高效的语音交互体验。

百视通AI应用场景的探索实践

近年来,人工智能技术在媒体领域的应用越来越广泛。如决策式/分析式AI,已运用到内容推荐、内容审核等领域;生成式AI,已运用到大批量的内容生产之中。百视通也积极探索AI能力在媒体领域的应用,并在四大应用场景进行了实践,分别是生产环节的智能创作、审核环节的多模态检索、分发环节的智能推荐以及接收环节的智慧服务。

1、生产环节:实现媒体内容的智能创作

百视通AIGC的制作标准是出道即4K,发展定位是专注实用性。2021年7月,百视通自制有声读物上线,这是我们对AI配音、AI制图的首次尝试。自2023年4月起,百视通财经产品在融媒体信息服务方向展开进一步创新尝试,推出《财经元读报》节目。《财经元读报》依托于第一财经的专业图文资源,选取篇幅合适的深度报道稿件,通过AI能力加入数字人进行解说,将非视频资源快速转化成更符合大屏用户习惯的视频内容。该节目每期时长在15分钟以内,每周推出3-5期,迎合当前传播环境下用户对中短视频的消费偏好,带领观众快速了解财经民生资讯,掌握具有公信力、专业性的解读。2024年,百视通用文生图,图生视频技术,已推出《奇怪的知识增加了》、《森林童话会》等精彩原创内容。

近年来,百视通已经开始布局AIGC辅助创作平台的构建。百视通自主研发的AIGC“文心雕龙”全新内容生产平台内含4个模块的AIGC可视化工作面板,根据职能所长由多个部门以4个环节的合作形成AIGC工作流。该平台创新性地整合了先进的AI技术,通过自主训练大型模型和部署高效工作流等前沿技术,不仅能够迅速生成符合市场需求的内容,还能革新生产创作的方式,高效地为观众提供丰富多样的内容选择。

2、审核环节:实现媒体环境的持续净化

在介绍我们的智能审核平台之前,先简单谈一下视频检索技术的发展历程。传统的视频检索,本质上是退化为文本检索,通过利用关系型数据库(如MySQL)或文本倒排数据库(Elastic Search)的能力,对文本分词,进行检索排序。第二代视频检索技术是在第一代技术的基础上,对视觉、听觉的模态进行了自动分析,将其转化为文本数据,其总体架构仍然未变,仍是基于文本的检索。随着AIGC和所谓的“通用人工智能(AGI)”崛起,尤以大语言模型(LLM)为代表的大模型全面应用为契机,第三代视频检索技术开始成熟。多模态表征大模型能够将文本、图片、音频、视频等内容转换成高维空间中的向量表示,大模型检索技术支持自然语言搜索,用户可以用自己的话描述他们想要找的内容,而不是依赖于预先定义好的关键词或标签。第三代检索技术的优势在于它的灵活性和表现力。例如:我们输入 “爆炸”后,就能搜索到爆炸相关的视频片段。

在入库流程上,媒资入库时支持多维度的内容理解;在搜索流程中,跨模态大模型搜索根据用户query文本,再经过大模型提取文本特征,搜索向量底库得到目标内容,针对视频内容会先聚合片段方便后续展示命中视频媒资内部的细节信息。用户也可以进行传统ES文本搜索得到目标内容,用户可以结合两种搜索方式使用。

我们的AI智能审核平台利用多模态视频检索技术,对视频内容(包括画面、音频和文字三种维度)进行违规问题的检测,支持自定义审核类型、阈值,图库、样本回流等个性化配置,大幅提高70%的审核效率。

3、分发环节:实现媒体用户的智能推荐

百视通聚焦主流价值引领,紧密围绕运营需求,自主研发推荐引擎,打造全方位智能推荐运营服务平台。智能推荐服务应用后,在一些关键业务指标上取得了显著的成效,推荐位使用效率提升4倍,订购触发占比达到20%,人工编排时间投入降低30%。

百视通智能推荐技术应用场景广泛:包括EPG首页推荐场景、节目点播页推荐场景、频道播控页推荐场景及高光时刻视频流化推荐场景。

4、接收环节:实现媒体场景的智慧服务

百视通希望借助人工智能技术为更多的用户提供媒体场景的智慧服务,其中就包含咱们的视听障人群,我们的目标是打造一个城市公共文化服务无障碍数字化垂类基座。基于此目标,我们率先打造了国内首款面向视听障人士的家庭无障碍视听产品,让AI为无障碍视听赋能,让更多的视听障人士共享影视文化发展红利。百视通打造了一条悬浮在电视屏幕上的数字“盲道”,为视听障用户打开了一个有“声”有“色”的精彩世界。后续,我们也会拓展更多的无障碍便民和政务服务场景,为用户带来更好的体验。

未来,百视通将继续顺应科技潮流,把握人工智能发展趋势,不断深化新体验、开拓新势能、创造新融合,开创行业发展新未来。

更多论坛相关内容可点击:专题|AI+新视听创新论坛

长江论道

报告推荐


往期回顾

洞见新格局、智变新视听——「长江论道」圆满落幕

“美丽中国·灵秀保护地”全国IPTV联播行动重磅启动

百度智能云携手长江云发布数智广电“白皮书”,联合七省市成立IPTV大模型联盟



▼ 转发、点赞、在看,安排一下?

浏览 14
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报