百科问答小站 logo
百科问答小站 font logo



2021 年音视频领域有哪些突破性技术与发展?明年甚至更远的未来是否会迎来技术性拐点? 第1页

  

user avatar   huo-hua-de-41 网友的相关建议: 
      

要说人工智能在2021年有什么惊艳的进展,那一定是深度学习在音视频领域掀起的这波浪潮。深度学习让不可能变为可能,下面就是见证奇迹的时刻~

有一句名言,马赛克是阻碍人类进步的绊脚石。为了人类文明可以进步,我把马赛克还原算法【1】排在第一,该算法可以通过“脑补”给低分辩图像补充上细节从而变成高分辨率图像。算法的思路是拿一张低分辨率图片,使用styleGAN生成高分辨率图片,再将高分辨率图片降采样得到低分辨率图片,并与原始低分辨率图片对比训练,直到收敛。

该算法目前只支持人脸马赛克的去除,但只要你有数据一样可以去除其他物体的马赛克。我知道你读到这里,一定有了一些大胆的想法,并且跃跃欲试了【狗头】

有一个算法也非常惊艳,让静态照片动起来的一阶动态模型(first order motion model ),让万物皆可运动。你只需要一张自拍,就可以让它动起来,我就拿我的头像试了一下【2】。模型先使用运动估计模块捕捉面部动作,再用图像生成模块提取面部图像特征,结合面部动作生成运动图像。

再说说这个老旧照片复原技术 (bring the old photos back to life),是国内科研团队发布在GitHub的一个项目【3】。这个项目的模型主要是通过深度学习复原那些破损褪色的照片。对于老旧照片的修复的难点在于每张照片的破损程度都各不相同,这种情况下就没办法用常用的监督学习的方法去解决。所以研发团队用了一种特殊的triplet domain translation network。通过训练两个 variational autoencoders(VAEs) 分别处理转换旧照片和干净的照片到两个latent spaces。之后这两个latent spaces 再通过运用合成的数据对比学习和转变就能很好的统一起来。

除此之外,为了解决单一图片的多种复杂退化,该模型利用了一个global branch来应对图片的结构残缺。比如有些照片不仅褪色严重,而且还有各种折痕和划痕。这时候这个global branch就可用来专门处理这种折痕划痕。如下图所示,照片的划痕被筛选出来进行了单独的修复。

单独解决了这些划痕的结构残缺,接下来local branch就是针对图片本身的矫正。除了颜色的调整,这里也会对噪点和模糊进行优化。

除此之外,模型还对人脸进行了加强优化。这里是通过progressive generator 来细化面部区域,最终得到一张清晰的面部轮廓。

总结来说这个模型优化基本上就是分三步走,第一步检测图片有没有结构破损,像是划痕之类的损毁情况, 第二步就是优化照片本身,降噪,调色,祛模糊, 第三步就是专门对面部进行局部优化。这样看来基本上就能处理大部分老旧照片所存在的问题了。

作为一个动漫迷,另一个要说的就是Real-ESRGAN模型了【4, 5】。 这个模型主要针对的是动漫视频超分辨率的优化。想想十几年前的动漫当时看的津津有味,现在打开一看,咦,是我的眼镜度数又高了吗?为什么总是感觉有一层灰盖在上面啊,真是画质感人。亲自下载了一下源代码测试了一遍,左边是网上随便找了张鸣人小时候的图片,有种朦朦的感觉。右边是用Real-ESGAN优化后的结果。

当然超分辨率后,图片的大小也从84kb增加到了1529kb.不得不说超分辨后,图片看起来不那么“近视了”。

除了修复这些图片,Real-ESRGAN 也可以修复动漫视频。这个模型其实还是基于ESRGAN模型,做出的针对低分辨率的图片及视频的优化,重点侧重于实用性。下图是整个模型的基本运行原理。

很多小伙伴看到这估计头都大了,自己要是处理个自己喜欢的图片是不是还得从新学一遍代码? 那对于非码农来说真是太不友好了。这么好的技术怎么可能会没有GUI呢?哈哈哈,那么今天他来了。万万没想到2021年这些音视频领域的突破,已经被腾讯云成功落地。

腾讯云音视频的能力非常强大且丰富,集多类技术于一身,可以高效地解决各类常见问题。能够提供画质修复和增强的能力。通过传统算法与深度学习模型结合,来消除片源中的噪点和压缩效应,增强细节去除模糊,提升色彩质量,并解决分辨率低、帧率低、卡顿不清晰等问题。

第一大类技术为画质估计与修复技术。主要是针对一些本身带有噪声和被压缩的视频帧进行修复和增强。若不经过这部分处理,直接做譬如清晰度和纹理增强、色彩增强的操作,有机会放大噪声和伪影。反过来,若不管视频本身质量,一律统一进行去噪声和压缩的处理,也会导致细节丢失的问题。

这里具体看下这张人脸图,以压缩恢复为例,它经过不同程度的压缩后呈现出不同的画质,若采用目前学术上最好的无估计方法进行统一的去压缩的处理,会发现它们恢复不了压缩很严重质量很差的图,而对于轻微压缩质量较好的图,它的脸部和眼睛周边处理又太过平滑。因此,腾讯云音视频提出了CRESNET方法。这是一种有估计的压缩恢复方法。它针对压缩受损情况进行估计,提取质量估计网络中间层特征融合到恢复网络中进行指引,提升不同压缩程度的恢复效果,目前超过了State-of-the-art的方法,而且很适合实际落地应用。

第二大类技术为清晰度增强技术。这里是针对质量相对较好的源进行清晰度增强。

在这个任务里,腾讯云音视频会重点考虑如何增强细节和纹理,达到去模糊和更加清晰的目的,同时也要兼顾到,即使是较好的源依然可能会有轻微的噪声。这些噪声若完全不理会,还是会被一起增强。这就需要找到一种更合理的数据处理方式,它能同时兼顾到各种数据分布,因此产生的退化数据应该通过随机引入噪声、压缩毛刺、视觉模糊和上下采不清晰等操作,来提高整体模型的泛化能力。另外,由于人眼对人脸和字体区域变化的敏感性,可以针对性的融合高级语义信息来对这些部分进行优化。

下面来看一段视频吧,效果非常惊艳~

腾讯音视频清晰度增加技术 https://www.zhihu.com/video/1459938043637030913

第三大类技术为视频色彩增强技术。针对一些色彩黯淡的视频进行增强,腾讯云音视频提出的方法主要是通过亮度、对比度和饱和度三个维度来分别进行色彩增强。

色彩增强也可以使用深度学习模型来解决,如HDRNet。但深度学习模型总体来说是个黑盒,解释性差,会出现帧内和帧间跳变的不稳定问题。腾讯云的工程师们采用了白盒方法,解释性更强,符合人为PS的操作更稳定可控,适合处理视频以及进行应用落地。

腾讯云的色彩增强模型是要直接用参数回归来简化强化学习的思路,使得训练更容易收敛,而且这样的成对数据集也更容易获取。首先,对高质量色彩图分别进行亮度、对比度和饱和度的随机退化。训练时,色彩退化图可以下采到小尺寸提升运算速度。接着,通过结合全局色彩特征和语义特征,固定操作顺序,做全连接回归来依次预测图像操作亮度、对比度、饱和度的增强参数。这样整体效果会更加稳定可控。

如下面的效果图,左边这组输入低光照图片,先用模型预测进行亮度增强;右边这组输入高饱和度的图片,用模型预测进行饱和度弱化。两组预测系数的方差大概在0.2左右,但是调整出来的整体色彩效果都是更合理的,由于整个网络在训练时参考了大量专家色彩,稳定性也比较高。

腾讯云音视频在以上各方面的突破,总的来说,一方面提高了图像的质量,另一方面也提高了图像和声音信息的传输效率。如果用一句话来总结这些突破对我们生活的影响,那就是借助这些新进展:我能更清晰地看到过去的“你”,也更真切地能触摸到远方的“你”。

画质提升之后,承载着我们小时候美好回忆的那些电视剧、动画片,都有望重返青春。更高的清晰度,更鲜艳的色彩,更真实的细节,能给我们带来更好的视觉体验。小时候就爱看老版《三国演义》,唐国强饰演的诸葛亮,鲍国安饰演的曹操,是永恒的经典。现在家里电视大了,旧片新放,发现屏幕上全是噪点、斑块,那些文言字幕也模模糊糊,看起来非常不舒服。现在一些视频平台已经开始了将其高清化的工作,相信老版本的《三国演义》在近期就可以旧貌换新颜,我们也可以重新梦回三国,重温英雄梦。

明年会有什么样的技术性突破拐点不好说,请诸君拭目以待。但是,我猜测各大视频平台(包括短视频平台)估计会掀起一波“老片新看”的热潮。

腾讯云音视频修复的三国演义 https://www.zhihu.com/video/1459937367864242176


参考文献:

【1】Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models

【2】github.com/AliaksandrSi

【3】github.com/microsoft/Br

【4】github.com/xinntao/Real

【5】Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data


user avatar   pansz 网友的相关建议: 
      

一,现状回顾

2021年疫情反反复复,电商带货、在线教育、大型展会活动、在线会议、在线医疗、金融证券,各类活动场景都在不断加深线上开展业务的方式。

10年前,当4G商用时,几乎所有媒体都在强调可以用4G看高清视频,而那时实时通信只能在专有软件、插件或Adobe Flash中进行。现在短视频爆炸式的发展,我们每天可在Chrome,Safari,Edge不同浏览器,各种软件App、iOS和Android移动设备,以及各种嵌入式终端之间实时互动。

音视频领域的发展,可以说是交互方式,业务应用场景,软硬件适用的平台都获得了全方位的扩展。

在交互方式方面,从一对一的交互,拓展到一对多,多对多,实时保存供回放等等。业务应用场景从视频通话拓展到了发布会,在线教育,演示卖货,直播互动,云游戏。而软硬件使用的平台逐渐变得全平台化,从最初的只适合PC-Windows平台,拓展到更多的移动平台(iOS与Android),拓展到更多的嵌入式终端(Linux平台)。

实时音视频技术的前世今生

实时音视频英文全称 Real-Time Communication,简称 RTC,是一种终端服务,为行业提供高并发、低延时、高清流畅、安全可靠的全场景、全互动、全实时的音视频服务。音视频数据传输的延迟要达到「实时」的标准,即延时<400ms,才能实现低延时和无卡顿,使得正常通信过程中基本感受不到延迟的存在。

实时音视频通信在满足特定条件下可以实现点对点通讯,但更多情况下还是需要用服务端为中转节点,对终端用户的图像、视频、音频数据进行即时采集、渲染、处理、传输,从而实现音视频流数据在终端节点间完成通信的过程。

WebRTC (web real-time communication)即Web实时通讯,这项技术是Google在2020年2月收购了IP网络实时语音和软件提供商GIPS后重命名为WebRTC并开源出来,经过这11年的发展,今年1月,WebRTC 被W3C 和 IETF 发布为正式标准。

虽然在名称上是支持Web上的实时通讯,但它包括很多我们想用到的东西:视频、音频、文字、文件的实时通讯。理论上来说这个框架可以支持到各种场合。



音视频处理包括语音引擎和视频引擎,不受网络条件影响,只受限于编解码算法、播放策略等因素。会根据不同的应用场景使用不同的技术以达到预期的效果。

网络传输的丢包、抖动和乱序对实时音视频应用的体验影响最为重大,但目前已经存在多种非常成熟的实时音视频数据传输协议,能很好地解决常规问题。

当下实时音视频技术的技术难点

以在线教育为例,实时音视频应用是一种强交互应用,用户的交互体验会严重影响一堂课的授课质量。要想提供优质交互的课堂体验,实时音视频需克服以下技术难点:

  • 网络基础设施:需要同时满足画质清晰流畅不卡顿、低时延、实时互动等需求。而今天网络情况复杂,弱网、跨运营商、跨国都导致链路质量和传输延时不可控;
  • 高清晰度:对数据传输、客户端的数据采集及数据渲染有较高技术要求;
  • 高音质:对音视频的降噪和消除回声有极高要求;
  • 国内外网互通:国内外连线,各地区信号差异大,如有的地方是5G,有时还是2G信号,对实时音视频技术极大的挑战;
  • 音画同步:对在线教育,除音画同步外,还涉及课件和白板以及交互操作的同步;
  • 海量并发:用户量多,对网络稳定,服务器不宕机能力提出挑战;
  • 低端设备适配:硬件越来越复杂,进入的场景也越多,低端设备的适配是比较难;

音视频技术的发展,促动的各种新兴需求与场景

早在上世纪90年代,实时音视频就以QQ通讯的方式进入了大家的使用场景,不过随着时间的发展以及视频应用的丰富,各种各样的需求逐渐产生:

网络多样性问题:一方面,我国缺少公网IP的问题使得许多通讯并不能有效的实现点对点通讯,需要服务器端中转,带来新的业务需求考验。二方面,移动互联网会面临传输速度与信号质量不断实时改变的网络状况,面对这种多变的网络要保证稳定流畅的音视频通讯对服务器以及音视频通信算法的应对能力是一个考验。

实时视频处理问题:视频会议中的每个用户需要对自己的音视频进行定制,比如视频的实时处理,这就涉及到人体识别技术,视频背景实时修改替换技术,视频模糊技术。

实时音频处理问题:同样的技术也会用于音频,比如记录演讲者的声纹用于实时祛除背景人声噪音,优化会议环境等等,这种技术最初可能以类似回声消除的机制来实现,不过基于机器学习的声纹匹配是目前更先进的方式。

实时交互切换问题:云游戏主播可以实时的把控制权交给听众来体验,这是云游戏在直播互动领域的优势应用场景。直播互动中也可能需要有连麦的需求,因此实时交互模式可能会在一个会话中动态修改。

一对多的推流问题:点对点的通讯如果大幅度增加节点数量,则每个节点需要上传的带宽都是信号带宽乘以总人数,这将把带宽需求提升到非常可怕的数字。目前业界对此的标准解决方案是CDN(内容分发网络),为了实现一对多(无论是大型研讨会还是直播发布会),必然需要部署大量的CDN节点辅助内容分发,而这个架构又需要与实时的音视频体系结合起来才能更方便使用。

总的来说,随着音视频应用场景的实际发展,音视频的范畴已经远远超越了WebRTC所定义的应用场景,我们需要更高一层的抽象化以及服务集成框架来应对日新月异的音视频业务需求。

而在这些方面的技术经验,以我司曾经合作过的产商来看,腾讯的云音视频解决方案处理的比较出色。

二,经验场景

从个人实践经历上,来看音视频的解决方案

我们知道腾讯是国内最早做音视频的一批企业,毕竟QQ本身要有音视频通讯。与此大致同时的还有微软的音视频,后续微软又整合了在落地方面有身后经验的Skype,此处落地指的自然是接入公共电话系统。但或许,落地也成为它的发展阻碍,毕竟这种技术会受到电信运营商的抵触,所以与直接接入电话相关的各种技术路线最终都会被证明走不通。

在Skype基础上发展起来的其它技术,也经历了很多分支发展,有很多进入了WebRTC。当然由于它本质上基于Web,这个发展体系其实与我们的需求相违背。毕竟,我们自己是做嵌入式的,大多数嵌入式设备并不能很好的跑起来一个浏览器。

那我们在讨论「如何让我们的嵌入式设备与手机之间实现音视频通讯」的时候,就会发现,如果不能走电信运营商这条路,剩下的就只有自研,而自研就必然面临着,自家app的推送无法有效到达,以及无法唤醒app进行通讯的问题。在这方面,我们测试了很多方案,发现要想实现实时的呼叫,只有腾讯的方案最终可以信赖,毕竟,主流手机产商都会主动给腾讯适配,让腾讯系可以正常唤醒进行通讯,而其它方案都无法保证足够的实时性。

于是我们选择了腾讯的实时音视频通信框架以及推送框架接入,整体工作流非常顺畅。费用方面公司也评估了一阵子,发现主流的几个方案最终费用基本都在同一个数量级,相差不大。

而在通话质量方面,腾讯的音视频相对有保障,首先是在各种复杂的网络情况下都能够联通,其次是实时的检测网络情况提供足够的QoS。

QoS指的就是服务质量的保障了,通过各种措施使得总体服务质量达到一个均衡的水平,不会出现突然的卡顿,漏音,破音,花屏等等。

视频可以通过QoS动态调整码流,以及自动尝试补全非关键帧,与此同时,音频也能做到类似的事情:腾讯开创了QoS 4.0基于智能感知的网络预测算法,自研的cPLC连续突发丢包补偿方案能够回复120ms以内的连续丢包,自研的cFEC前向纠错编码方案也比OPUS原生的带内FEC恢复效果更好;可以提供更优秀的音视频传输质量和更好的流畅度。

而视频方面,腾讯自研的H.265硬件编码瑶池U500在今年12月莫斯科国立大学举办的MSU世界视频编码器大赛中获得硬件编码器比赛第一名的佳绩,这个硬件编码器也即将投产,随着5G的普及,将会进一步在视频画质、带宽占用、计算成本等方面为行业提供性能更佳的解决方案,为云游戏、视频直播等场景提供更为优质的视频体验。


现实中,一旦我们开始部署音视频领域的应用,尝到了音视频应用的甜头,需求就会很快地从点对点实时音视频拓展开来。比如,我们提供了学生与家长的音视频互通,就开始慢慢诞生教师的互动要求,学校就希望考虑支持班主任召开家长会这种一对多的场合。

班主任召开家长会看似简单的将实时通讯变成一对多,但实际上诞生的需求比表面上想象的要多,比如这就会涉及到录像功能,允许迟到的家长观看一定程度的录播视频。也同时会考虑到大量家长听讲情况下的视频内容分发。以及老师需要允许个别家长发言等等。

这,就需要比较好的网络支持了。腾讯为了降低延时提高请求成功率,在全球70多个国家与地区进行储备了CDN 资源,现在全网带宽达到了150Tbps+。全球拥有超过2800个加速节点,中国境内含2000+加速节点,覆盖移动、联通、电信及十几家中小型运营商,中国境外含800+加速节点。其服务可用性平均延时降低了24%,同时请求成功率却提升17%。

除了家长会这样的会议,还有日新月异的直播需求,他们往往会存在对视频的实时处理要求。腾讯通过AI的加持,可以智能处理很多场景。如判断媒体视频理解关注的区域对视频尺寸智能裁减,使视频在不同比例设备中能够呈现最优效果; 智能扣图可以将背景绿幕进行替换,腾讯自研的算法可弱化绿幕边缘使其替换更自然;智能视频分析,可以做到识别和分析视频中的动作、事件、人脸等特性,自动定位精彩片段,完成自动拆条、剪辑、配乐等工作,生成精彩视频集锦并自动选择封面或gif封面。这些技术就可以更好的适应于博览会、智慧园区、影视综宣发、体育赛事、电商直播提供大量支持。

各种各样的功能性需求,以及历史积淀,造就了腾讯整合出来的新的RT-ONE™ 云音视频平台,依托这个基础可以构建各种各样的音视频业务。包括实时音视频、即时通信、云直播、云点播等全面的 PaaS 产品矩阵,提升了企业全面、多样的业务构建和场景快速上线能力。

三、技术漫谈

网络音视频格式的变迁

网络音视频经历了各种各样的传输格式,例如FLV这个Flash格式曾经是互联网一霸,直到后续各大操作系统与浏览器封杀Flash才渐渐淡出大众实现,还有苹果推出的HLS格式(Http Live Streaming)顾名思义是用于在http协议上实时传输流媒体使用的。又比如CMAF(Comm Media Application Format),这是多家行业巨头合力推出的媒体框架,还有前边所说的WebRTC。究竟哪些会在下一个十年继续应用呢?

个人看法是,部分格式因为相对应用场景单一,或者有大公司强推,可能会持续使用,比如HLS以及WebRTC分别为苹果与谷歌强推。他们相对来说比较倾向于基于浏览器架构。

而CMAF格式则可能具备更广泛的应用场景。一方面,从技术上来说,它并不仅仅只是一个格式,还定义了各种应用场景标准,它能够满足网络音视频中更广泛的应用场景需求。二方面,它得到了微软,苹果,MLBAM,Akamai等更多行业巨头的支持。所以有兴趣的朋友可以进一步了解一下CMAF。

出海覆盖全球网络

我国的互联网业务不断发展,目前已经逐渐开始携带着国内的很多优秀体验走向全球,海外的网络情况其实与国内有一些差别,这些大多数需要实际有海外经验,踩过一圈坑才能搞清楚。而大厂框架在这方面可能会走到前边,提前把海外该部署的节点都部署好了。例如腾讯 CDN 资源储备遍布全球70+国家与地区,全网带宽150Tbps+。全球拥有超过2800个加速节点。

元宇宙与虚拟现实

元宇宙,在我看来,可以当作一个大型的网络游戏,而虚拟现实,某种程度上也可以当作一个渲染帧率与精度要求很高的3D游戏。我们知道,游戏本身往往代表着需要使用同类产品中最高性能规格的硬件,而元宇宙与虚拟现实相关的性能需求都是游戏级,除了性能需求以外,另外还增加了网络需求。

5G网络的新形态是否给应用提出了不同的要求?个人觉得相对来说5G与传统宽带的差异性主要是两个:

一个是不可靠性,5G网络每个基站能够覆盖的范围非常有限,如果客户在移动过程中使用5G网络,那么网络连接会不断的切换,终端自身的网络状态与网络地址都会不断改变。

二个则是供电的不可持续性,移动设备有可能使用电池供电,所以在应用开发的时候往往需要考虑功耗与发热问题。不能像固定设备一样不加顾虑的使用资源。

如果5G网络在固定地点插电使用,理论上与宽带区别不大。但移动使用的情况下,可能就必然造成多变的网络,对不同网络情况的适应提出了更多要求。

除了网络的特性以外,5G的终端可以移动,并且具备更多传感器,也就必然意味着更多形式的交互,这对应用开发提出了很多挑战,但也揭示了很多应用场景创新的可能。

比如云游戏虽然单独作为玩游戏的方式并不算非常火,但如果作为游戏直播的方式,则可以非常有前景,因为它可以更方便的实现控制权的切换,方便更多的听众参与到直播中来,主播甚至可以让观众临时控制游戏。而这就需要云游戏架构结合音视频交互技术。

未来可继续优化的应用场景创新

除了技术突破与创新外,腾讯云音视频尝试与VR/AR结合,在应用场景上不断创新,提供沉浸式媒体体验。如云上南头古城,将南头古城1:1超精细化的还原到云端,别出心裁地将云端科技与南头古城特色文化街区融合,打造与古城实体街区相呼应的线上虚拟空间。体验方式很简单,进入小程序即可在指尖上漫步南头古城,在游戏般的趣味体验里,随时在云端畅游古城,沉浸式感受生活烟火气。

教育场景,腾讯云音视频继续深耕并扩大支持力度,提供的低延时产品帮助客户快速从原服务无缝切换到低延时服务。而腾讯的小程序音视频能力,也方便在线教育创业者在小程序上快速试错,大幅降低运营成本。

除此之外,金融场景也有布局,如在小程序端提供的高质量、低延时音视频帮助众多基金经理完成线上投资讲解、基金销售。合作伙伴飞虎互动就在半年多时间里将多家银行开户流程搬到线上,已获得几十家银行客户认可。

全真互联时代下,腾讯云音视频会继续探索新的行业趋势、新的技术方向以及新的应用场景,与大家共同探索视界,创见未来!


user avatar   tiancaomei 网友的相关建议: 
      

视频编码,是视频制作发布中至关重要的环节之一,其主要目的是在保证一定视频清晰度的前提下缩小视频文件的存储空间,从而节省传输和存储开销。现在大家之所以可以用非常低的带宽看到1080p甚至4K级别的高清视频,视频编解码器是最关键的部分,其性能会直接影响到视频数据传输的质量和大小。因为如果我们把互联网当做一个管道的话,数据管道两端的压缩和还原程度,会直接影响到接收的数据本身。可以想象,如果没有多媒体编解码技术,视频的制作、存储和传输成本将会大大提高,互联网中的视频内容、视频应用也就不会像今天这样丰富多彩,也都会不复存在。

大家可能会对移动通信技术更为熟悉,那如果我们用通信技术来做类比,音视频编码标准也同样采用不断迭代的代际升级方式。自从H.266、AV1编码标准冻结以来,各大公司的音视频部门重点就转向了H.266、AV1编解码器的实现,期望自家产品的视频编解码器可以一鸣惊人,在2021年MSU就是一个非常明显的例子,在这个持续16年的大赛上,我们可以非常明显的看到,视频编解码器的并行化,智能化,云化的发展趋势,而编码标准本身从H.26x系列的一家独大,逐渐转变为到AV1、HEVC、VVC三足鼎立的竞争局面,其中涌现了各种各样的新兴技术和产业,百花齐放。

不过要对大众把这件事说明白了,我们还是要从故事的开始说起。


一、 多媒体解码器标准的那些事


很长时间以来,就像「三流的公司做产品,二流的公司做技术,一流的公司做标准」,编解码器也是一样。因为编解码器本身的基础地位,学术界和工业界对视频编码技术进行了长期而又深入的研究。国内外一直有专门的标准化组织在制定视频编码标准,包括ITU-T主导的H.26X系列、ISO/IEC主导的MPEG系列以及国内AVS组织主导的AVS系列等等。

总体来看,目前,全球主流的视频压缩技术有H.26x、AVS系列、AV1三大类。上图展示了视频编码标准的发展历程。其中,AVS是中国自主制订的数字音视频编解码标准,在国内市场有很大的发展潜力。另外,相较于H.26x系列高昂的专利费和复杂的专利政策,免费开源的AV1被认为将会得到更为广泛的应用。

二、视频编解码器---我们应该怎么压缩视频?

2.1 实现视频压缩的基础——视频冗余

我们在最开始有说到,由摄像器材捕捉的原始视频流经数字化后,数据量非常庞大,对视频信号的存储、传输与处理都带来了极大的挑战。因此,需要对原始的数字视频信号进行压缩编码。根据香农信息论,自然界的信息普遍存在大量的冗余,而对视频信号来说,会体现在比如时间冗余、空间冗余、视觉冗余、编码冗余等等方面。视频存在信息冗余,也是实现视频编码压缩数据量的基础。


时间冗余:

时间冗余指的是在时间上重复的信息,在视频中的表现就是时间上相邻帧之间的图像很相似,造成了冗余。一般,每秒30帧的话,视频中两个相邻帧的图像间隔是30毫秒多一点,变化很微小。


比如,上面两幅图像就是从一段视频序列中截取出的相邻两帧图像,不论是主体内容还是具体结构都非常相似,因此包含了许多的时间上的冗余信息。


空间冗余:

空间冗余是指一帧图像内相邻像素、结构间所具有的相关性。与时间冗余不同,空间冗余在视频信号中的表现为同一帧图像中很多空间区域所具有的相互关联性。

比如在上面这一张风景图中被红框圈起来的几个部分,不论是框内还是框周围,色彩与图像内容都非常近似。

视觉冗余:

视觉冗余与人类视觉系统的特点相关,人类视觉系统对于图像的变化,并不是都能感知的。例如,对于图像的编码和解码处理时,由于压缩阶段引入了噪声而使图像发生了一些变化,如果这些变化不能为视觉所感知,则仍认为图像足够好,这类冗余我们称为视觉冗余

通常情况下,人类视觉系统对亮度变化敏感,而对色度的变化相对不敏感;在高亮度区,人眼对亮度变化敏感度下降。对物体边缘敏感,内部区域相对不敏感;对整体结构敏感,而对内部细节相对不敏感。

编码冗余:

要了解编码冗余,首先需要了解一些信息论的知识点。在信息论中,信息熵指的是数据所携带的信息量,这个信息量的单位通常用bit比特来表示。简单理解,某段数据信息熵就是对该数据进行无失真编码所得平均码长的下限,但这个下限很难达到。

因此,表达某一信息所需要的比特数往往比理论上表示该信息所需要的最少比特数要大,则它们之间的差距就是信息熵冗余,也被称为编码冗余。

2.2 混合编码框架

如果我们说以上介绍的冗余,是能够实现视频压缩的基础,那么,我们要以怎么样的方法才能把冗余去除?到目前为止,尽管世界上有着各种不同的视频编码标准,但大体上都是基于一个通用的框架——混合编码框架。经典的混合编码框架如下图所示[1]

整个编码框架被大致分为了三个部分:预测编码、变换编码与熵编码。这几种编码手段分别对应了不同类型信息冗余的压缩需求:

1. 预测编码(包含帧内与帧间预测):帧内预测可以压缩空间冗余;帧间预测可以压缩时间冗余;

2. 变换编码(包含变换与量化):变换可以将图像从空间域变换到变换域;量化可以压缩视觉冗余;

3. 熵编码:压缩编码冗余;


2.2.1 预测编码

首先我们来了解一下预测编码,这种编码方式利用了图像中相邻像素的时间或空间相关性,用已编码的像素对当前正在编码的像素进行预测,然后对预测值与真实值的差——预测残差进行编码和传输。真实信号、预测信号与预测残差间的关系可以参考如下的例子:

真实信号序列:55, 69, 78, 67, 70, 59, 63, 64, 72, 60

预测信号序列:66, 66, 66, 66, 66, 66, 66, 66, 66, 66

预测残差序列:-11, 3, 12, 1, 4, -7, -3, -4, 6, -6

从上面这个例子可以看出,如果通过预测编码,对预测残差序列进行编码和传输,可以显著降低信号的数据量。视频编码中所使用的预测编码基本原理框图如下图所示:

预测编码主要包括帧内预测和帧间预测,分别用于压缩用于我们上文提到的空间冗余和时间冗余。

正如前文空间冗余部分所述,视频每一帧的图像中,总有许多区域是相互关联的。也就是说,视频图像中,相邻像素之间的变化一般都很小,存在着极强的空间相关性。因此,要编码某一片区域中的像素值,可以使用周围已编码区域的像素值对这片区域中的像素值进行预测,然后获取预测残差进行编码。帧内预测的基本过程如下所示:

上图中绿色区域是已经编码的像素值,红色问号区域代表将要被编码的区域。

如果使用垂直方向上的已编码像素值对待编码区域像素值进行预测,就可以获得待编码区域的预测信号,图中箭头方向代表预测方向。

通过获得的预测像素值,与原有的实际像素值做差,就获得了帧内预测残差。显而易见,预测残差矩阵的数据量更小,原本需要用8bit存储的数据,经过预测后,预测残差可能只需要2bit。

帧内预测在一定程度上减少了空间冗余,而在帧间预测中,主要是对原始视频信号中的时间冗余进行压缩。通常来说,视频信号相邻帧中包含的内容非常相似,最大的差异主要来自于物体在空间中的运动。因此,帧内预测中使用了运动补偿对视频中的运动特性进行编码。我们用两张图来简单的解释这个过程。

上图代表了视频中正在进行帧间编码的一帧,其中红色编码块内包含一个运动物体。


运动补偿首先在参考帧中寻找能够最佳匹配红色编码块的粉色匹配块,并计算二者间的运动矢量(Motion Vector, MV)。在结束该帧编码后,我们只需要传输帧间预测残差和运动矢量信息,这大大缩减了视频信号中的时间冗余信息。


2.2.2 变换与量化

上面提到的预测编码大多是在空间域与时间域内进行的,而变换编码指将空间域中描述的图像,经过某种变换,变换为变换域(通常指的是DCT域),从而达到改变数据分布的作用。接下来,我们给出了对图像像数值进行DCT变换的一个实际例子:

上图中,左图是原图每个像素所对应亮度分量的实际值,右图是该亮度图像进行DCT变换所获得的系数矩阵。可以看到,经过DCT变换,图像大部分能量都集中在频域中的直流分量与低频分量上(左上角部分),高频分量部分的能量却很少,基本接近于0或等于0。

经过上一步从从空域变换到频域后,我们得到了一个新的矩阵。对于变换后得到的数据,我们再通过量化进行进一步的压缩处理,把具有连续幅度值的输入信号,转换到只具有有限个幅度值的输出信号,可以大大减小数据量[2]


2.2.3 熵编码

我们在上面提到,在编码器的整个编码流程中,各种预测编码和变换编码都可以看成是通过解除空间或时间上的相关性,将原始信号转换成另一种形式(预测误差或变换系数)来表达。那么,在这种新形式下,信源可以近似认为是无记忆的,即各样值之间已没有相关性。再经过量化操作后,信源只产生有限个数的符号,因此,经过量化后的信号可近似看成是一个离散无记忆信源。对于离散无记忆信源,只要各事件出现的概率不相等,该信源就仍然有冗余存在,还有进一步进行数据压缩的可能性,这就是在熵编码中所考虑的问题[3]


三、 编码技术大战——2021年MSU世界视频编码器大赛

在当前,每个视频所包含的信息量、数据量都在大幅的增加。一部时长两个小时未经压缩的分辨率为1080p,帧率为60Hz的YUV视频,大约会占用1920*1080*1.5*60*60*120 Byte,约134G Byte的存储空间。面对如此大的数据量,为了在传输过程中不造成过大的带宽占用,并且要尽量提供与网速一致的交互体验,就需要依靠高效的视频编码。所以,视频编码的研究和标准制定是推动业内的发展的基础。

由于视频应用相关产业的迅速发展,视频编码技术作为视频应用背后的关键支撑,也受到各大厂商的重点关注,提供视频内容的科技公司也纷纷着力于研发自己的视频编码器,视频编码器的“技术大战”,也一直拥有极高的关注度。作为世界顶级视频编码器大赛,MSU编码器大赛是由莫斯科国立大学(Moscow State University)举办的,迄今为止已连续举办十六届,是视频编码器领域极具权威的赛事。2021年MSU世界视频编码器大赛的竞争非常的激烈,参赛团队来自世界TOP级别的科技公司包括腾讯等各大互联网公司等。

2021年10月30日,权威赛事2021 MSU世界视频编码器大赛成绩公布。在H.265赛道,腾讯研发的Tencent V265编码器处于行业领先,各项指标排名全部第一;在AV1赛道,腾讯推出的VAV1自研编码器也实现全部指标第一;腾讯自研的Tencent266编码器也在竞争激烈的高清离线赛道中夺得两项第一名的成绩。



上图是MSU大赛中全高清客观指评价[4]和主观质量评价[5]的结果。可以看到,腾讯公司的Tencent V265编码器,不论在客观质量压缩,还是在主观质量压缩,在快速档赛道(Fast, 30fps)中都取得了所有评判标准中第一的突出成绩。


上图展示了各个编码器的编码质量(慢速模式,Y-VMAF评价指标)和编码速度。从图中可以看出,腾讯参赛的三款编码器,Tencent AV1、Tencent V265、Tencent266都相比于参考的x265编码器显著提高了编码质量。其中,Tencent V265编码器在提高编码质量的同时,也提高了编码速度。该编码器在各个功能模块研发了多种优化算法,包括自适应码率分配、自适应量化(包括时域自适应量化以及空域自适应量化)、快速算法优化、编码与AI融合、场景的自适应等等,实现了通过对不同场景下的自适应码率分配显著提升视频压缩率、通过CTU/行/帧的三级码率控制模型等实现精确码率控制,在压缩性能、编码速度、主观评价上都取得了多项突破,达到了国际领先水平[6]

在对编码器进行了横向的对比和分析后,我们纵观十六年来MSU世界编码器大赛的比赛过程和比赛结果,从中可以看到,目前视频编解码技术的发展有如下几项趋势:


1)上图是MSU世界编码器大赛中不同视频编码器使用数量的比较。可以看出,视频编码标准从H.26x系列的一家独大,逐渐转变为到AV1、HEVC(H.265)、VVC(H.266)三足鼎立的竞争局面。

2)视频内容的分辨率越来越高,数据量越来越庞大。2021年的视频编码主流分辨率从720P, 1080P的高清图像(H.264)已经升级到2K, 4K, 8K超高清图像编码(HEVC, VVC, AV1);

3)由于多媒体内容中视频图像越来越大,帧率越来越高。支持并行编码以及便于实现硬件加速编解码的视频编码器会越来越流行。

我们可以从技术趋势中发现,开源的编码标准、面向超高清视频的编码标准以及硬件加速编码愈发流行,而这三者,都是由越来越丰富的视频应用、越来越高清的视频催生的。正如“技术永远和需求挂钩,技术驱动,需求拉动,同时用市场加速,这是这个时代的核心特征”。在视频编码领域,亦是如此。编码技术的发展,也往往由新的视频应用需求驱动。迄今为止,视频应用已经渗透到生活的各个领域,也催生了视频编码新的技术需求。比如,从2019爆发的新冠疫情至今,国内外的很多会议都由线下转至线上举行,许多行业对视频会议都有强烈的需求,视频会议需要进行低延迟、高质量的视频传输,同时,屏幕共享功能也要求视频编码器能对屏幕内容进行高效高质量的编码。

与视频会议相似的还有超高清视频的传输。随着硬件设备的发展和带宽的提高,用户对视频质量,尤其是分辨率的要求也随之提高。因此,如何提高压缩效率,降低带宽消耗的同时又能最大化的提高视频的质量,是视频编码技术一直以来的追求,也将持续作为未来研究的重要课题。

目前,发展火热的AR/VR视频,即增强现实/虚拟现实视频,由于VR视频内容的特殊性和网络带宽的限制,目前的视频编码标准无法满足VR视频的压缩需求。目前,业界对AR/VR视频的设备和应用呼声极高,针对AR/VR内容的视频编码标准也势必在未来有更好的发展。

参考

  1. ^ 高文,赵德斌,马思伟. 数字视频编码技术原理(第二版)[M]. 北京: 科学出版社, 2018.
  2. ^ 朱秀昌, 刘峰, 胡栋. H.265/HEVC视频编码新标准及其扩展[M]. 北京: 电子工业出版社, 2016.
  3. ^ 蔡安妮. 多媒体通信技术基础(第4版)[M]. 北京: 电子工业出版社, 2017.
  4. ^ MSU Video Codecs Comparison 2021 Part 1: FullHD, objective[EB/OL]. https://www.compression.ru/video/codec_comparison/2021/main_report.html.
  5. ^ MSU Video Codecs Comparison 2021 Part 2: Subjective[EB/OL]. https://www.compression.ru/video/codec_comparison/2021/subjective_report.html.
  6. ^ 技术分享|张贤国:给用户以完备体验的腾讯V265编码器https://mp.weixin.qq.com/s/qprfFjrs8M3coK-9O3FYbQ



  

相关话题

  如何看待米哈游计划“十年内打造十亿人愿意生活在其中的虚拟世界”? 
  未来两年,VR/AR 硬件会迎来大的技术突破吗? 
  元宇宙大热,各大巨头纷纷布局,元宇宙真的会成为下一代互联网的形态吗? 
  有没有可以推荐的免费或低价的vps或云主机? 
  区块链是元宇宙的核心技术吗? 
  如何看待罗永浩所说的“我们坚信 VR 未来 8 到 10 年会成为下一代计算平台”? 
  Pokémon GO 有什么奇技淫巧? 
  腾讯辟谣「腾讯云数据库泄露」,造谣者可能面临哪些法律责任?如果云计算企业数据泄露影响有多严重? 
  如何看待李想谈车内 VR 替代车机屏幕:请多些最基本的敬畏心? 
  VR 中有哪些方法隐喻深度线索(depth cue)? 

前一个讨论
CPU检测到中断信号时,怎么知道是发给哪个进程的?
下一个讨论
python怎么去掉最大值和最小值,怎么找到最大值与最小值,去掉最大值最小值比如下面这道题?





© 2025-01-19 - tinynew.org. All Rights Reserved.
© 2025-01-19 - tinynew.org. 保留所有权利