2021 年音视频领域有哪些突破性技术与发展？明年甚至更远的未来是否会迎来技术性拐点？

admin 2024-02-09 77 0

　　2021 年，音视频技术的应用场景已随处可见，从游戏场景「吃鸡」、电商场景直播连麦、教育场景授课答题，再到金融场景银行视频开户等都有它的身影。那么，回望今年音视频领域到底有哪些突破性技术表现？未来，音视频赛道在流畅性、海量并发等存在诸多技术痛点的地方是否会迎来拐点呢？能否从各种角度和领域来盘点一下。

　　2021年疫情反反复复，电商带货、在线教育、大型展会活动、在线会议、在线医疗、金融证券，各类活动场景都在不断加深线上开展业务的方式。

　　10年前，当4G商用时，几乎所有媒体都在强调可以用4G看高清视频，而那时实时通信只能在专有软件、插件或Adobe Flash中进行。现在短视频爆炸式的发展，我们每天可在Chrome，Safari，Edge不同浏览器，各种软件App、iOS和Android移动设备，以及各种嵌入式终端之间实时互动。

　　音视频领域的发展，可以说是交互方式，业务应用场景，软硬件适用的平台都获得了全方位的扩展。

　　在交互方式方面，从一对一的交互，拓展到一对多，多对多，实时保存供回放等等。业务应用场景从视频通话拓展到了发布会，在线教育，演示卖货，直播互动，云游戏。而软硬件使用的平台逐渐变得全平台化，从最初的只适合PC-Windows平台，拓展到更多的移动平台（iOS与Android），拓展到更多的嵌入式终端（Linux平台）。

　　实时音视频英文全称 Real-Time Communication，简称 RTC，是一种终端服务，为行业提供高并发、低延时、高清流畅、安全可靠的全场景、全互动、全实时的音视频服务。音视频数据传输的延迟要达到「实时」的标准，即延时<400ms，才能实现低延时和无卡顿，使得正常通信过程中基本感受不到延迟的存在。

　　实时音视频通信在满足特定条件下可以实现点对点通讯，但更多情况下还是需要用服务端为中转节点，对终端用户的图像、视频、音频数据进行即时采集、渲染、处理、传输，从而实现音视频流数据在终端节点间完成通信的过程。

　　WebRTC （web real-time communication）即Web实时通讯，这项技术是Google在2020年2月收购了IP网络实时语音和软件提供商GIPS后重命名为WebRTC并开源出来，经过这11年的发展，今年1月，WebRTC 被W3C 和 IETF 发布为正式标准。

　　虽然在名称上是支持Web上的实时通讯，但它包括很多我们想用到的东西：视频、音频、文字、文件的实时通讯。理论上来说这个框架可以支持到各种场合。

　　音视频处理包括语音引擎和视频引擎，不受网络条件影响，只受限于编解码算法、播放策略等因素。会根据不同的应用场景使用不同的技术以达到预期的效果。

　　网络传输的丢包、抖动和乱序对实时音视频应用的体验影响最为重大，但目前已经存在多种非常成熟的实时音视频数据传输协议，能很好地解决常规问题。

　　以在线教育为例，实时音视频应用是一种强交互应用，用户的交互体验会严重影响一堂课的授课质量。要想提供优质交互的课堂体验，实时音视频需克服以下技术难点：网络基础设施：需要同时满足画质清晰流畅不卡顿、低时延、实时互动等需求。而今天网络情况复杂，弱网、跨运营商、跨国都导致链路质量和传输延时不可控；高清晰度：对数据传输、客户端的数据采集及数据渲染有较高技术要求；高音质：对音视频的降噪和消除回声有极高要求；国内外网互通：国内外连线，各地区信号差异大，如有的地方是5G，有时还是2G信号，对实时音视频技术极大的挑战；音画同步：对在线教育，除音画同步外，还涉及课件和白板以及交互操作的同步；海量并发：用户量多，对网络稳定，服务器不宕机能力提出挑战；低端设备适配：硬件越来越复杂，进入的场景也越多，低端设备的适配是比较难；

　　早在上世纪90年代，实时音视频就以QQ通讯的方式进入了大家的使用场景，不过随着时间的发展以及视频应用的丰富，各种各样的需求逐渐产生：

　　网络多样性问题：一方面，我国缺少公网IP的问题使得许多通讯并不能有效的实现点对点通讯，需要服务器端中转，带来新的业务需求考验。二方面，移动互联网会面临传输速度与信号质量不断实时改变的网络状况，面对这种多变的网络要保证稳定流畅的音视频通讯对服务器以及音视频通信算法的应对能力是一个考验。

　　实时视频处理问题：视频会议中的每个用户需要对自己的音视频进行定制，比如视频的实时处理，这就涉及到人体识别技术，视频背景实时修改替换技术，视频模糊技术。

　　实时音频处理问题：同样的技术也会用于音频，比如记录演讲者的声纹用于实时祛除背景人声噪音，优化会议环境等等，这种技术最初可能以类似回声消除的机制来实现，不过基于机器学习的声纹匹配是目前更先进的方式。

　　实时交互切换问题：云游戏主播可以实时的把控制权交给听众来体验，这是云游戏在直播互动领域的优势应用场景。直播互动中也可能需要有连麦的需求，因此实时交互模式可能会在一个会话中动态修改。

　　一对多的推流问题：点对点的通讯如果大幅度增加节点数量，则每个节点需要上传的带宽都是信号带宽乘以总人数，这将把带宽需求提升到非常可怕的数字。目前业界对此的标准解决方案是CDN（内容分发网络），为了实现一对多（无论是大型研讨会还是直播发布会），必然需要部署大量的CDN节点辅助内容分发，而这个架构又需要与实时的音视频体系结合起来才能更方便使用。

　　总的来说，随着音视频应用场景的实际发展，音视频的范畴已经远远超越了WebRTC所定义的应用场景，我们需要更高一层的抽象化以及服务集成框架来应对日新月异的音视频业务需求。

　　而在这些方面的技术经验，以我司曾经合作过的产商来看，腾讯的云音视频解决方案处理的比较出色。

　　我们知道腾讯是国内最早做音视频的一批企业，毕竟QQ本身要有音视频通讯。与此大致同时的还有微软的音视频，后续微软又整合了在落地方面有身后经验的Skype，此处落地指的自然是接入公共电话系统。但或许，落地也成为它的发展阻碍，毕竟这种技术会受到电信运营商的抵触，所以与直接接入电话相关的各种技术路线最终都会被证明走不通。

　　在Skype基础上发展起来的其它技术，也经历了很多分支发展，有很多进入了WebRTC。当然由于它本质上基于Web，这个发展体系其实与我们的需求相违背。毕竟，我们自己是做嵌入式的，大多数嵌入式设备并不能很好的跑起来一个浏览器。

　　那我们在讨论「如何让我们的嵌入式设备与手机之间实现音视频通讯」的时候，就会发现，如果不能走电信运营商这条路，剩下的就只有自研，而自研就必然面临着，自家app的推送无法有效到达，以及无法唤醒app进行通讯的问题。在这方面，我们测试了很多方案，发现要想实现实时的呼叫，只有腾讯的方案最终可以信赖，毕竟，主流手机产商都会主动给腾讯适配，让腾讯系可以正常唤醒进行通讯，而其它方案都无法保证足够的实时性。

　　于是我们选择了腾讯的实时音视频通信框架以及推送框架接入，整体工作流非常顺畅。费用方面公司也评估了一阵子，发现主流的几个方案最终费用基本都在同一个数量级，相差不大。

　　而在通话质量方面，腾讯的音视频相对有保障，首先是在各种复杂的网络情况下都能够联通，其次是实时的检测网络情况提供足够的QoS。

　　QoS指的就是服务质量的保障了，通过各种措施使得总体服务质量达到一个均衡的水平，不会出现突然的卡顿，漏音，破音，花屏等等。

　　视频可以通过QoS动态调整码流，以及自动尝试补全非关键帧，与此同时，音频也能做到类似的事情：腾讯开创了QoS 4.0基于智能感知的网络预测算法，自研的cPLC连续突发丢包补偿方案能够回复120ms以内的连续丢包，自研的cFEC前向纠错编码方案也比OPUS原生的带内FEC恢复效果更好；可以提供更优秀的音视频传输质量和更好的流畅度。

　　而视频方面，腾讯自研的H.265硬件编码瑶池U500在今年12月莫斯科国立大学举办的MSU世界视频编码器大赛中获得硬件编码器比赛第一名的佳绩，这个硬件编码器也即将投产，随着5G的普及，将会进一步在视频画质、带宽占用、计算成本等方面为行业提供性能更佳的解决方案，为云游戏、视频直播等场景提供更为优质的视频体验。

　　现实中，一旦我们开始部署音视频领域的应用，尝到了音视频应用的甜头，需求就会很快地从点对点实时音视频拓展开来。比如，我们提供了学生与家长的音视频互通，就开始慢慢诞生教师的互动要求，学校就希望考虑支持班主任召开家长会这种一对多的场合。

　　班主任召开家长会看似简单的将实时通讯变成一对多，但实际上诞生的需求比表面上想象的要多，比如这就会涉及到录像功能，允许迟到的家长观看一定程度的录播视频。也同时会考虑到大量家长听讲情况下的视频内容分发。以及老师需要允许个别家长发言等等。

　　这，就需要比较好的网络支持了。腾讯为了降低延时提高请求成功率，在全球70多个国家与地区进行储备了CDN 资源，现在全网带宽达到了150Tbps+。全球拥有超过2800个加速节点，中国境内含2000+加速节点，覆盖移动、联通、电信及十几家中小型运营商，中国境外含800+加速节点。其服务可用性平均延时降低了24%，同时请求成功率却提升17%。

　　除了家长会这样的会议，还有日新月异的直播需求，他们往往会存在对视频的实时处理要求。腾讯通过AI的加持，可以智能处理很多场景。如判断媒体视频理解关注的区域对视频尺寸智能裁减，使视频在不同比例设备中能够呈现最优效果；智能扣图可以将背景绿幕进行替换，腾讯自研的算法可弱化绿幕边缘使其替换更自然；智能视频分析，可以做到识别和分析视频中的动作、事件、人脸等特性，自动定位精彩片段，完成自动拆条、剪辑、配乐等工作，生成精彩视频集锦并自动选择封面或gif封面。这些技术就可以更好的适应于博览会、智慧园区、影视综宣发、体育赛事、电商直播提供大量支持。

　　各种各样的功能性需求，以及历史积淀，造就了腾讯整合出来的新的RT-ONE™ 云音视频平台，依托这个基础可以构建各种各样的音视频业务。包括实时音视频、即时通信、云直播、云点播等全面的 PaaS 产品矩阵，提升了企业全面、多样的业务构建和场景快速上线能力。

　　网络音视频经历了各种各样的传输格式，例如FLV这个Flash格式曾经是互联网一霸，直到后续各大操作系统与浏览器封杀Flash才渐渐淡出大众实现，还有苹果推出的HLS格式（Http Live Streaming）顾名思义是用于在http协议上实时传输流媒体使用的。又比如CMAF（Comm Media Application Format），这是多家行业巨头合力推出的媒体框架，还有前边所说的WebRTC。究竟哪些会在下一个十年继续应用呢？

　　个人看法是，部分格式因为相对应用场景单一，或者有大公司强推，可能会持续使用，比如HLS以及WebRTC分别为苹果与谷歌强推。他们相对来说比较倾向于基于浏览器架构。

　　而CMAF格式则可能具备更广泛的应用场景。一方面，从技术上来说，它并不仅仅只是一个格式，还定义了各种应用场景标准，它能够满足网络音视频中更广泛的应用场景需求。二方面，它得到了微软，苹果，MLBAM，Akamai等更多行业巨头的支持。所以有兴趣的朋友可以进一步了解一下CMAF。

　　我国的互联网业务不断发展，目前已经逐渐开始携带着国内的很多优秀体验走向全球，海外的网络情况其实与国内有一些差别，这些大多数需要实际有海外经验，踩过一圈坑才能搞清楚。而大厂框架在这方面可能会走到前边，提前把海外该部署的节点都部署好了。例如腾讯 CDN 资源储备遍布全球70+国家与地区，全网带宽150Tbps+。全球拥有超过2800个加速节点。

　　元宇宙，在我看来，可以当作一个大型的网络游戏，而虚拟现实，某种程度上也可以当作一个渲染帧率与精度要求很高的3D游戏。我们知道，游戏本身往往代表着需要使用同类产品中最高性能规格的硬件，而元宇宙与虚拟现实相关的性能需求都是游戏级，除了性能需求以外，另外还增加了网络需求。

　　5G网络的新形态是否给应用提出了不同的要求？个人觉得相对来说5G与传统宽带的差异性主要是两个：

　　一个是不可靠性，5G网络每个基站能够覆盖的范围非常有限，如果客户在移动过程中使用5G网络，那么网络连接会不断的切换，终端自身的网络状态与网络地址都会不断改变。

　　二个则是供电的不可持续性，移动设备有可能使用电池供电，所以在应用开发的时候往往需要考虑功耗与发热问题。不能像固定设备一样不加顾虑的使用资源。

　　如果5G网络在固定地点插电使用，理论上与宽带区别不大。但移动使用的情况下，可能就必然造成多变的网络，对不同网络情况的适应提出了更多要求。

　　除了网络的特性以外，5G的终端可以移动，并且具备更多传感器，也就必然意味着更多形式的交互，这对应用开发提出了很多挑战，但也揭示了很多应用场景创新的可能。

　　比如云游戏虽然单独作为玩游戏的方式并不算非常火，但如果作为游戏直播的方式，则可以非常有前景，因为它可以更方便的实现控制权的切换，方便更多的听众参与到直播中来，主播甚至可以让观众临时控制游戏。而这就需要云游戏架构结合音视频交互技术。

　　除了技术突破与创新外，腾讯云音视频尝试与VR/AR结合，在应用场景上不断创新，提供沉浸式媒体体验。如云上南头古城，将南头古城1：1超精细化的还原到云端，别出心裁地将云端科技与南头古城特色文化街区融合，打造与古城实体街区相呼应的线上虚拟空间。体验方式很简单，进入小程序即可在指尖上漫步南头古城，在游戏般的趣味体验里，随时在云端畅游古城，沉浸式感受生活烟火气。

　　在教育场景，腾讯云音视频继续深耕并扩大支持力度，提供的低延时产品帮助客户快速从原服务无缝切换到低延时服务。而腾讯的小程序音视频能力，也方便在线教育创业者在小程序上快速试错，大幅降低运营成本。

　　除此之外，金融场景也有布局，如在小程序端提供的高质量、低延时音视频帮助众多基金经理完成线上投资讲解、基金销售。合作伙伴飞虎互动就在半年多时间里将多家银行开户流程搬到线上，已获得几十家银行客户认可。

　　全真互联时代下，腾讯云音视频会继续探索新的行业趋势、新的技术方向以及新的应用场景，与大家共同探索视界，创见未来！

　　要说人工智能在2021年有什么惊艳的进展，那一定是深度学习在音视频领域掀起的这波浪潮。深度学习让不可能变为可能，下面就是见证奇迹的时刻～

　　有一句名言，马赛克是阻碍人类进步的绊脚石。为了人类文明可以进步，我把马赛克还原算法【1】排在第一，该算法可以通过“脑补”给低分辩图像补充上细节从而变成高分辨率图像。算法的思路是拿一张低分辨率图片，使用styleGAN生成高分辨率图片，再将高分辨率图片降采样得到低分辨率图片，并与原始低分辨率图片对比训练，直到收敛。消除马赛克从此不是梦

　　该算法目前只支持人脸马赛克的去除，但只要你有数据一样可以去除其他物体的马赛克。我知道你读到这里，一定有了一些大胆的想法，并且跃跃欲试了【狗头】

　　有一个算法也非常惊艳，让静态照片动起来的一阶动态模型（first order motion model ），让万物皆可运动。你只需要一张自拍，就可以让它动起来，我就拿我的头像试了一下【2】。模型先使用运动估计模块捕捉面部动作，再用图像生成模块提取面部图像特征，结合面部动作生成运动图像。 2021 年音视频领域有哪些突破性技术与发展？明年甚至更远的未来是否会迎来技术性拐点？-第3张图片用一张静止图像就可以让小恶魔对你说话

　　再说说这个老旧照片复原技术 (bring the old photos back to life)，是国内科研团队发布在GitHub的一个项目【3】。这个项目的模型主要是通过深度学习复原那些破损褪色的照片。对于老旧照片的修复的难点在于每张照片的破损程度都各不相同，这种情况下就没办法用常用的监督学习的方法去解决。所以研发团队用了一种特殊的triplet domain translation network。通过训练两个 variational autoencoders(VAEs) 分别处理转换旧照片和干净的照片到两个latent spaces。之后这两个latent spaces 再通过运用合成的数据对比学习和转变就能很好的统一起来。

　　除此之外，为了解决单一图片的多种复杂退化，该模型利用了一个global branch来应对图片的结构残缺。比如有些照片不仅褪色严重，而且还有各种折痕和划痕。这时候这个global branch就可用来专门处理这种折痕划痕。如下图所示，照片的划痕被筛选出来进行了单独的修复。

　　单独解决了这些划痕的结构残缺，接下来local branch就是针对图片本身的矫正。除了颜色的调整，这里也会对噪点和模糊进行优化。

　　除此之外，模型还对人脸进行了加强优化。这里是通过progressive generator 来细化面部区域，最终得到一张清晰的面部轮廓。

　　总结来说这个模型优化基本上就是分三步走，第一步检测图片有没有结构破损，像是划痕之类的损毁情况，第二步就是优化照片本身，降噪，调色，祛模糊，第三步就是专门对面部进行局部优化。这样看来基本上就能处理大部分老旧照片所存在的问题了。

　　作为一个动漫迷，另一个要说的就是Real-ESRGAN模型了【4, 5】。这个模型主要针对的是动漫视频超分辨率的优化。想想十几年前的动漫当时看的津津有味，现在打开一看，咦，是我的眼镜度数又高了吗？为什么总是感觉有一层灰盖在上面啊，真是画质感人。亲自下载了一下源代码测试了一遍，左边是网上随便找了张鸣人小时候的图片，有种朦朦的感觉。右边是用Real-ESGAN优化后的结果。

　　当然超分辨率后，图片的大小也从84kb增加到了1529kb.不得不说超分辨后，图片看起来不那么“近视了”。

　　除了修复这些图片，Real-ESRGAN 也可以修复动漫视频。这个模型其实还是基于ESRGAN模型，做出的针对低分辨率的图片及视频的优化，重点侧重于实用性。下图是整个模型的基本运行原理。

　　很多小伙伴看到这估计头都大了，自己要是处理个自己喜欢的图片是不是还得从新学一遍代码？那对于非码农来说真是太不友好了。这么好的技术怎么可能会没有GUI呢？哈哈哈，那么今天他来了。万万没想到2021年这些音视频领域的突破，已经被腾讯云成功落地。

　　腾讯云音视频的能力非常强大且丰富，集多类技术于一身，可以高效地解决各类常见问题。能够提供画质修复和增强的能力。通过传统算法与深度学习模型结合，来消除片源中的噪点和压缩效应，增强细节去除模糊，提升色彩质量，并解决分辨率低、帧率低、卡顿不清晰等问题。当前腾讯云音视频的画质增强能力

　　第一大类技术为画质估计与修复技术。主要是针对一些本身带有噪声和被压缩的视频帧进行修复和增强。若不经过这部分处理，直接做譬如清晰度和纹理增强、色彩增强的操作，有机会放大噪声和伪影。反过来，若不管视频本身质量，一律统一进行去噪声和压缩的处理，也会导致细节丢失的问题。

　　这里具体看下这张人脸图，以压缩恢复为例，它经过不同程度的压缩后呈现出不同的画质，若采用目前学术上最好的无估计方法进行统一的去压缩的处理，会发现它们恢复不了压缩很严重质量很差的图，而对于轻微压缩质量较好的图，它的脸部和眼睛周边处理又太过平滑。因此，腾讯云音视频提出了CRESNET方法。这是一种有估计的压缩恢复方法。它针对压缩受损情况进行估计，提取质量估计网络中间层特征融合到恢复网络中进行指引，提升不同压缩程度的恢复效果，目前超过了State-of-the-art的方法，而且很适合实际落地应用。

　　第二大类技术为清晰度增强技术。这里是针对质量相对较好的源进行清晰度增强。

　　在这个任务里，腾讯云音视频会重点考虑如何增强细节和纹理，达到去模糊和更加清晰的目的，同时也要兼顾到，即使是较好的源依然可能会有轻微的噪声。这些噪声若完全不理会，还是会被一起增强。这就需要找到一种更合理的数据处理方式，它能同时兼顾到各种数据分布，因此产生的退化数据应该通过随机引入噪声、压缩毛刺、视觉模糊和上下采不清晰等操作，来提高整体模型的泛化能力。另外，由于人眼对人脸和字体区域变化的敏感性，可以针对性的融合高级语义信息来对这些部分进行优化大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。

　　下面来看一段视频吧，效果非常惊艳～腾讯音视频清晰度增加技术https://www.zhihu.com/video/1459938043637030913

　　第三大类技术为视频色彩增强技术。针对一些色彩黯淡的视频进行增强，腾讯云音视频提出的方法主要是通过亮度、对比度和饱和度三个维度来分别进行色彩增强。

　　色彩增强也可以使用深度学习模型来解决，如HDRNet。但深度学习模型总体来说是个黑盒，解释性差，会出现帧内和帧间跳变的不稳定问题。腾讯云的工程师们采用了白盒方法，解释性更强，符合人为PS的操作更稳定可控，适合处理视频以及进行应用落地。

　　腾讯云的色彩增强模型是要直接用参数回归来简化强化学习的思路，使得训练更容易收敛，而且这样的成对数据集也更容易获取。首先，对高质量色彩图分别进行亮度、对比度和饱和度的随机退化。训练时，色彩退化图可以下采到小尺寸提升运算速度。接着，通过结合全局色彩特征和语义特征，固定操作顺序，做全连接回归来依次预测图像操作亮度、对比度、饱和度的增强参数。这样整体效果会更加稳定可控。

　　如下面的效果图，左边这组输入低光照图片，先用模型预测进行亮度增强；右边这组输入高饱和度的图片，用模型预测进行饱和度弱化。两组预测系数的方差大概在0.2左右，但是调整出来的整体色彩效果都是更合理的，由于整个网络在训练时参考了大量专家色彩，稳定性也比较高。

　　腾讯云音视频在以上各方面的突破，总的来说，一方面提高了图像的质量，另一方面也提高了图像和声音信息的传输效率。如果用一句话来总结这些突破对我们生活的影响，那就是借助这些新进展：我能更清晰地看到过去的“你”，也更真切地能触摸到远方的“你”。

　　画质提升之后，承载着我们小时候美好回忆的那些电视剧、动画片，都有望重返青春。更高的清晰度，更鲜艳的色彩，更真实的细节，能给我们带来更好的视觉体验。小时候就爱看老版《三国演义》，唐国强饰演的诸葛亮，鲍国安饰演的曹操，是永恒的经典。现在家里电视大了，旧片新放，发现屏幕上全是噪点、斑块，那些文言字幕也模模糊糊，看起来非常不舒服。现在一些视频平台已经开始了将其高清化的工作，相信老版本的《三国演义》在近期就可以旧貌换新颜，我们也可以重新梦回三国，重温英雄梦。

　　明年会有什么样的技术性突破拐点不好说，请诸君拭目以待。但是，我猜测各大视频平台（包括短视频平台）估计会掀起一波“老片新看”的热潮。腾讯云音视频修复的三国演义https://www.zhihu.com/video/1459937367864242176

　　参考文献：

　　【1】Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models

　　【2】https://github.com/AliaksandrSiarohin/first-order-model

　　【3】https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life

　　【4】https://github.com/xinntao/Real-ESRGAN

　　【5】Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data

　　视频编码，是视频制作发布中至关重要的环节之一，其主要目的是在保证一定视频清晰度的前提下缩小视频文件的存储空间，从而节省传输和存储开销。现在大家之所以可以用非常低的带宽看到1080p甚至4K级别的高清视频，视频编解码器是最关键的部分，其性能会直接影响到视频数据传输的质量和大小。因为如果我们把互联网当做一个管道的话，数据管道两端的压缩和还原程度，会直接影响到接收的数据本身。可以想象，如果没有多媒体编解码技术，视频的制作、存储和传输成本将会大大提高，互联网中的视频内容、视频应用也就不会像今天这样丰富多彩，也都会不复存在。

　　大家可能会对移动通信技术更为熟悉，那如果我们用通信技术来做类比，音视频编码标准也同样采用不断迭代的代际升级方式。自从H.266、AV1编码标准冻结以来，各大公司的音视频部门重点就转向了H.266、AV1编解码器的实现，期望自家产品的视频编解码器可以一鸣惊人，在2021年MSU就是一个非常明显的例子，在这个持续16年的大赛上，我们可以非常明显的看到，视频编解码器的并行化，智能化，云化的发展趋势，而编码标准本身从H.26x系列的一家独大，逐渐转变为到AV1、HEVC、VVC三足鼎立的竞争局面，其中涌现了各种各样的新兴技术和产业，百花齐放。

　　不过要对大众把这件事说明白了，我们还是要从故事的开始说起。

　　很长时间以来，就像「三流的公司做产品，二流的公司做技术，一流的公司做标准」，编解码器也是一样。因为编解码器本身的基础地位，学术界和工业界对视频编码技术进行了长期而又深入的研究。国内外一直有专门的标准化组织在制定视频编码标准，包括ITU-T主导的H.26X系列、ISO/IEC主导的MPEG系列以及国内AVS组织主导的AVS系列等等。

　　总体来看，目前，全球主流的视频压缩技术有H.26x、AVS系列、AV1三大类。上图展示了视频编码标准的发展历程。其中，AVS是中国自主制订的数字音视频编解码标准，在国内市场有很大的发展潜力。另外，相较于H.26x系列高昂的专利费和复杂的专利政策，免费开源的AV1被认为将会得到更为广泛的应用。

　　我们在最开始有说到，由摄像器材捕捉的原始视频流经数字化后，数据量非常庞大，对视频信号的存储、传输与处理都带来了极大的挑战。因此，需要对原始的数字视频信号进行压缩编码。根据香农信息论，自然界的信息普遍存在大量的冗余，而对视频信号来说，会体现在比如时间冗余、空间冗余、视觉冗余、编码冗余等等方面。视频存在信息冗余，也是实现视频编码压缩数据量的基础。

　　时间冗余：

　　时间冗余指的是在时间上重复的信息，在视频中的表现就是时间上相邻帧之间的图像很相似，造成了冗余。一般，每秒30帧的话，视频中两个相邻帧的图像间隔是30毫秒多一点，变化很微小。

　　比如，上面两幅图像就是从一段视频序列中截取出的相邻两帧图像，不论是主体内容还是具体结构都非常相似，因此包含了许多的时间上的冗余信息。

　　空间冗余：

　　空间冗余是指一帧图像内相邻像素、结构间所具有的相关性。与时间冗余不同，空间冗余在视频信号中的表现为同一帧图像中很多空间区域所具有的相互关联性。

　　比如在上面这一张风景图中被红框圈起来的几个部分，不论是框内还是框周围，色彩与图像内容都非常近似。

　　视觉冗余：

　　视觉冗余与人类视觉系统的特点相关，人类视觉系统对于图像的变化，并不是都能感知的。例如，对于图像的编码和解码处理时，由于压缩阶段引入了噪声而使图像发生了一些变化，如果这些变化不能为视觉所感知，则仍认为图像足够好，这类冗余我们称为视觉冗余。

　　通常情况下，人类视觉系统对亮度变化敏感，而对色度的变化相对不敏感；在高亮度区，人眼对亮度变化敏感度下降。对物体边缘敏感，内部区域相对不敏感；对整体结构敏感，而对内部细节相对不敏感。

　　编码冗余：

　　要了解编码冗余，首先需要了解一些信息论的知识点。在信息论中，信息熵指的是数据所携带的信息量，这个信息量的单位通常用bit比特来表示。简单理解，某段数据信息熵就是对该数据进行无失真编码所得平均码长的下限，但这个下限很难达到。

　　因此，表达某一信息所需要的比特数往往比理论上表示该信息所需要的最少比特数要大，则它们之间的差距就是信息熵冗余，也被称为编码冗余。

　　如果我们说以上介绍的冗余，是能够实现视频压缩的基础，那么，我们要以怎么样的方法才能把冗余去除？到目前为止，尽管世界上有着各种不同的视频编码标准，但大体上都是基于一个通用的框架——混合编码框架。经典的混合编码框架如下图所示[1]： 2021 年音视频领域有哪些突破性技术与发展？明年甚至更远的未来是否会迎来技术性拐点？-第18张图片

　　整个编码框架被大致分为了三个部分：预测编码、变换编码与熵编码。这几种编码手段分别对应了不同类型信息冗余的压缩需求：

　　1. 预测编码（包含帧内与帧间预测）：帧内预测可以压缩空间冗余；帧间预测可以压缩时间冗余；

　　2. 变换编码（包含变换与量化）：变换可以将图像从空间域变换到变换域；量化可以压缩视觉冗余；

　　3. 熵编码：压缩编码冗余；

　　2.2.1 预测编码

　　首先我们来了解一下预测编码，这种编码方式利用了图像中相邻像素的时间或空间相关性，用已编码的像素对当前正在编码的像素进行预测，然后对预测值与真实值的差——预测残差进行编码和传输。真实信号、预测信号与预测残差间的关系可以参考如下的例子：

　　真实信号序列：55, 69, 78, 67, 70, 59, 63, 64, 72, 60

　　预测信号序列：66, 66, 66, 66, 66, 66, 66, 66, 66, 66

　　预测残差序列：-11, 3, 12, 1, 4, -7, -3, -4, 6, -6

　　从上面这个例子可以看出，如果通过预测编码，对预测残差序列进行编码和传输，可以显著降低信号的数据量。视频编码中所使用的预测编码基本原理框图如下图所示：

　　预测编码主要包括帧内预测和帧间预测，分别用于压缩用于我们上文提到的空间冗余和时间冗余。

　　正如前文空间冗余部分所述，视频每一帧的图像中，总有许多区域是相互关联的。也就是说，视频图像中，相邻像素之间的变化一般都很小，存在着极强的空间相关性。因此，要编码某一片区域中的像素值，可以使用周围已编码区域的像素值对这片区域中的像素值进行预测，然后获取预测残差进行编码。帧内预测的基本过程如下所示： 2021 年音视频领域有哪些突破性技术与发展？明年甚至更远的未来是否会迎来技术性拐点？-第22张图片

　　上图中绿色区域是已经编码的像素值，红色问号区域代表将要被编码的区域。 2021 年音视频领域有哪些突破性技术与发展？明年甚至更远的未来是否会迎来技术性拐点？-第24张图片

　　如果使用垂直方向上的已编码像素值对待编码区域像素值进行预测，就可以获得待编码区域的预测信号，图中箭头方向代表预测方向。

　　通过获得的预测像素值，与原有的实际像素值做差，就获得了帧内预测残差。显而易见，预测残差矩阵的数据量更小，原本需要用8bit存储的数据，经过预测后，预测残差可能只需要2bit。

　　帧内预测在一定程度上减少了空间冗余，而在帧间预测中，主要是对原始视频信号中的时间冗余进行压缩。通常来说，视频信号相邻帧中包含的内容非常相似，最大的差异主要来自于物体在空间中的运动。因此，帧内预测中使用了运动补偿对视频中的运动特性进行编码。我们用两张图来简单的解释这个过程。

　　上图代表了视频中正在进行帧间编码的一帧，其中红色编码块内包含一个运动物体。

　　运动补偿首先在参考帧中寻找能够最佳匹配红色编码块的粉色匹配块，并计算二者间的运动矢量（Motion Vector, MV）。在结束该帧编码后，我们只需要传输帧间预测残差和运动矢量信息，这大大缩减了视频信号中的时间冗余信息。

　　2.2.2 变换与量化

　　上面提到的预测编码大多是在空间域与时间域内进行的，而变换编码指将空间域中描述的图像，经过某种变换，变换为变换域（通常指的是DCT域），从而达到改变数据分布的作用。接下来，我们给出了对图像像数值进行DCT变换的一个实际例子： 2021 年音视频领域有哪些突破性技术与发展？明年甚至更远的未来是否会迎来技术性拐点？-第30张图片

　　上图中，左图是原图每个像素所对应亮度分量的实际值，右图是该亮度图像进行DCT变换所获得的系数矩阵。可以看到，经过DCT变换，图像大部分能量都集中在频域中的直流分量与低频分量上（左上角部分），高频分量部分的能量却很少，基本接近于0或等于0。

　　经过上一步从从空域变换到频域后，我们得到了一个新的矩阵。对于变换后得到的数据，我们再通过量化进行进一步的压缩处理，把具有连续幅度值的输入信号，转换到只具有有限个幅度值的输出信号，可以大大减小数据量[2]。

　　2.2.3 熵编码

　　我们在上面提到，在编码器的整个编码流程中，各种预测编码和变换编码都可以看成是通过解除空间或时间上的相关性，将原始信号转换成另一种形式(预测误差或变换系数)来表达。那么，在这种新形式下,信源可以近似认为是无记忆的,即各样值之间已没有相关性。再经过量化操作后，信源只产生有限个数的符号,因此，经过量化后的信号可近似看成是一个离散无记忆信源。对于离散无记忆信源，只要各事件出现的概率不相等,该信源就仍然有冗余存在，还有进一步进行数据压缩的可能性，这就是在熵编码中所考虑的问题[3]。

　　在当前，每个视频所包含的信息量、数据量都在大幅的增加。一部时长两个小时未经压缩的分辨率为1080p，帧率为60Hz的YUV视频，大约会占用1920*1080*1.5*60*60*120 Byte，约134G Byte的存储空间。面对如此大的数据量，为了在传输过程中不造成过大的带宽占用，并且要尽量提供与网速一致的交互体验，就需要依靠高效的视频编码。所以，视频编码的研究和标准制定是推动业内的发展的基础。

　　由于视频应用相关产业的迅速发展，视频编码技术作为视频应用背后的关键支撑，也受到各大厂商的重点关注，提供视频内容的科技公司也纷纷着力于研发自己的视频编码器，视频编码器的“技术大战”，也一直拥有极高的关注度。作为世界顶级视频编码器大赛，MSU编码器大赛是由莫斯科国立大学（Moscow State University）举办的，迄今为止已连续举办十六届，是视频编码器领域极具权威的赛事。2021年MSU世界视频编码器大赛的竞争非常的激烈，参赛团队来自世界TOP级别的科技公司包括腾讯等各大互联网公司等。

　　2021年10月30日，权威赛事2021 MSU世界视频编码器大赛成绩公布。在H.265赛道，腾讯研发的Tencent V265编码器处于行业领先，各项指标排名全部第一；在AV1赛道，腾讯推出的VAV1自研编码器也实现全部指标第一；腾讯自研的Tencent266编码器也在竞争激烈的高清离线赛道中夺得两项第一名的成绩。

　　上图是MSU大赛中全高清客观指评价[4]和主观质量评价[5]的结果。可以看到，腾讯公司的Tencent V265编码器，不论在客观质量压缩，还是在主观质量压缩，在快速档赛道（Fast, 30fps）中都取得了所有评判标准中第一的突出成绩。

　　上图展示了各个编码器的编码质量（慢速模式，Y-VMAF评价指标）和编码速度。从图中可以看出，腾讯参赛的三款编码器，Tencent AV1、Tencent V265、Tencent266都相比于参考的x265编码器显著提高了编码质量。其中，Tencent V265编码器在提高编码质量的同时，也提高了编码速度。该编码器在各个功能模块研发了多种优化算法，包括自适应码率分配、自适应量化(包括时域自适应量化以及空域自适应量化)、快速算法优化、编码与AI融合、场景的自适应等等，实现了通过对不同场景下的自适应码率分配显著提升视频压缩率、通过CTU/行/帧的三级码率控制模型等实现精确码率控制，在压缩性能、编码速度、主观评价上都取得了多项突破，达到了国际领先水平[6]。

　　在对编码器进行了横向的对比和分析后，我们纵观十六年来MSU世界编码器大赛的比赛过程和比赛结果，从中可以看到，目前视频编解码技术的发展有如下几项趋势：

　　1）上图是MSU世界编码器大赛中不同视频编码器使用数量的比较。可以看出，视频编码标准从H.26x系列的一家独大，逐渐转变为到AV1、HEVC(H.265)、VVC(H.266)三足鼎立的竞争局面。

　　2）视频内容的分辨率越来越高，数据量越来越庞大。2021年的视频编码主流分辨率从720P, 1080P的高清图像（H.264）已经升级到2K, 4K, 8K超高清图像编码（HEVC, VVC, AV1）；

　　3）由于多媒体内容中视频图像越来越大，帧率越来越高。支持并行编码以及便于实现硬件加速编解码的视频编码器会越来越流行。

　　我们可以从技术趋势中发现，开源的编码标准、面向超高清视频的编码标准以及硬件加速编码愈发流行，而这三者，都是由越来越丰富的视频应用、越来越高清的视频催生的。正如“技术永远和需求挂钩，技术驱动，需求拉动，同时用市场加速，这是这个时代的核心特征”。在视频编码领域，亦是如此。编码技术的发展，也往往由新的视频应用需求驱动。迄今为止，视频应用已经渗透到生活的各个领域，也催生了视频编码新的技术需求。比如，从2019爆发的新冠疫情至今，国内外的很多会议都由线下转至线上举行，许多行业对视频会议都有强烈的需求，视频会议需要进行低延迟、高质量的视频传输，同时，屏幕共享功能也要求视频编码器能对屏幕内容进行高效高质量的编码。

　　与视频会议相似的还有超高清视频的传输。随着硬件设备的发展和带宽的提高，用户对视频质量，尤其是分辨率的要求也随之提高。因此，如何提高压缩效率，降低带宽消耗的同时又能最大化的提高视频的质量，是视频编码技术一直以来的追求，也将持续作为未来研究的重要课题。

　　目前，发展火热的AR/VR视频，即增强现实/虚拟现实视频，由于VR视频内容的特殊性和网络带宽的限制，目前的视频编码标准无法满足VR视频的压缩需求。目前，业界对AR/VR视频的设备和应用呼声极高，针对AR/VR内容的视频编码标准也势必在未来有更好的发展。

　　元旦期间，关于“周杰伦入局元宇宙，40分钟卖6200万元”的新闻登上微博热搜。而就在不久之前，周杰伦从合作十余年的“真爱范特西” KTV退股。

　　周杰伦这前后操作，某种程度上彰显了时代风口下，音乐发展的新轨迹。

　　本次卖出6200万元高价的，是由数字加密互动娱乐平台Ezek联合周杰伦名下潮牌PHANTACi限量推出的10000枚 “Phanta Bear”（幻象熊）NFT。这是周杰伦赶“元宇宙时髦”的方式。

　　随着各类K歌APP的层出不穷，以及当今娱乐方式的改变，线下KTV对年轻人的吸引力已经不复当年。而当下最火热的元宇宙风潮，对音乐的发展也带来了不小的影响，在VR、AR、3D建模、AI等元宇宙相关技术的影响下，音乐发展迎来崭新的面貌。包括周杰伦在内，不少明星也纷纷入局元宇宙，将眼光瞄准文娱行业的“元宇宙式”创新。

　　NFT（Non Fungible Token）是一种基于以太坊区块链的虚拟货币。与比特币、以太币等“同质化代币”相比，NFT是“不可同质化代币/不可替代代币”。任何一枚NFT都因绑定不同的“数字资产”而有着独一无二的特性，任何一枚NFT代币都是不可替代且不可分割的。

　　举个例子，当你购买了一枚NFT代币，这就代表你获得了它不可抹除的所有权记录和实际资产的使用权。例如你购买了一件艺术品，它可以被展示被复制，但只有你是它的实际拥有者。

　　本次“Phanta Bear”（幻象熊）NFT便是基于这样技术理念，由Ezek联合周杰伦名下潮牌PHANTACi限量推出的数字收藏品。而抢购幻象熊的热潮，便是基于去年以来元宇宙概念及加密币圈NFT概念的火爆。

　　1992年，美国科幻大师尼尔·斯蒂芬森在小说《雪崩》中首次提及“元宇宙”：“戴上耳机和目镜，找到连接终端，就能够以虚拟分身的方式进入由计算机模拟、与真实世界平行的虚拟空间。

　　元宇宙被许多人视为互联网的未来，各互联网巨头也纷纷入局元宇宙。而NFT等基于区块链技术的虚拟货币，或将成为未来构建元宇宙经济体系的重要基础。NFT通过将虚拟商品资产化，目前已应用于收藏品、奢侈品、艺术品、游戏等多类资产。周杰伦换上幻象熊NFT头像

　　1月3日，周杰伦将自己的Instagram头像换成了一枚幻象熊NFT，赶一波“元宇宙时髦”。这只有着爆炸头、“星星眼”眼镜，身着印有周杰伦生日日期的“18号”球衣的幻象熊是周杰伦收到的新年礼物之一。幻象熊是周杰伦旗下潮牌PHANTACi的核心IP。该潮牌由周杰伦和好友Ric 在2006年共同创办。

　　将幻象熊IP打造为NFT的背后推手，是数字娱乐平台Ezek。平台创始人之一刘畊宏，是周杰伦的好友，曾经也是一名歌手。

　　据Ezek官网介绍，其目标是探索建立在区块链技术上的多元潮流艺术娱乐文化与元宇宙结合的新体验。幻象熊NFT除了作为数字收藏品，也可兼作Ezek Club的会员卡。每只独特的幻象熊，对应的是不同等级的会员权益。

　　除了本次与PHANTACi的合作，Ezek称未来还会陆续与更多潮流娱乐NFT开展合作，打造更多将传统娱乐内容转换为新一代数字加密货币娱乐体验的互动社群。

　　据Ezek官网公布的时间表显示，Ezek将在2022年第一季度启动虚拟演唱会工作；第二季度通过购买虚拟土地，并与演唱会和电影制作团队合作，在元宇宙中建造一个仅限会员参与的会所。等到2022年第三季度，用户将能够通过Ezek NFT参与虚拟演唱会。

　　Ezek平台表示，未来平台会员将能凭借NFT门票，进入应用最新技术的VR/XR 虚拟演唱会以及相关虚拟地产中。

　　“潮流达人”周杰伦，早在元宇宙概念兴起以前，就已在线下演唱会中尝试融入虚拟技术。

　　2013年，周杰伦便在其巡回演唱会上，通过4D效果将已故歌星邓丽君的虚拟影像逼真地投射到舞台上，与邓丽君进行了一段隔空对唱。身着旗袍的“邓丽君”与周杰伦合唱了《你怎么说》《红尘客栈》《千里之外》三首歌曲。这段打破时空阻隔的合唱，让在座的观众为之感叹落泪，并好奇是什么技术让邓丽君的音容笑貌得以在舞台上如此生动地重现。出现在周杰伦的演唱会上的邓丽君虚拟影像

　　而在2021年春节晚会舞台上，借助XR技术，人物、道具与虚拟场景的结合，周杰伦演绎了一曲《莫吉托》，为观众带去了新奇的观感体验。周杰伦演唱《莫吉托》

　　随着虚实场景的切换，原本仅有一桌一椅简单陈设的舞台，突然变得丰富多彩。周杰伦坐上粉色飞车环游世界，与乐队展开互动表演……当这段热闹的表演结束，镜头一转，舞台上仍然只有周杰伦和一桌一椅。

　　有了AR（增强现实）、VR（虚拟现实）、MR（混合现实）等XR（扩展现实）技术的加持，音乐舞台表演正在突破观众的想象。

　　自疫情发生以来，音乐与科技的结合便呈现出加速发展的态势。在元宇宙风潮的影响下，虚拟演唱会开始成为现实生活的一部分。

　　2022的跨年夜，腾讯音乐推出了国内首个虚拟音乐嘉年华TMELAND，用户可在其中创建个人虚拟形象，同时也能加入虚拟直播、虚拟演唱会等数字场景。

　　五月天的跨年演唱会成为在TMELAND元宇宙里“举办”的首个TME live超现场演出。（五月天跨年演唱会高仿真背景）

　　TMELAND的这场元宇宙演唱会吸引超万人同时在线观看，也引发了网友在微博上对“元宇宙跨年是种什么体验”的探讨。

　　在五月天跨年演唱会中，屏幕上进行表演的仍然是乐队中的“真人”。而在2021年11月，加拿大著名歌手Justin Bieber则举办了一场完全以虚拟形象出镜的元宇宙演唱会。

　　在这场演唱会里，虚拟娱乐平台Wave为Justin Bieber打造了专属虚拟形象，通过惯性动作捕捉系统，将Justin Bieber本人的真实表演动作投射到虚拟舞台的虚拟形象身上。

　　这场虚拟演唱会梦幻且华丽。在演唱会里，虚拟人Justin Bieber在阳光映照下的金色麦田进行演唱，身边是随风摆动的麦浪，以及星星点点、漫天飞舞的金色萤火虫。虚拟人Justin Bieber

　　Justin Bieber本人则身穿“动作捕捉服”，出现在屏幕右下角。观众可以看到，Justin Bieber一举一动的动作细节都被投射到了屏幕上自己的虚拟形象中。屏幕右下角Justin Bieber身穿“动作捕捉服”

　　演唱会直播过程中，观众可以向Justin Bieber发送流动的金色光芒，地上的草还会开出红、黄、蓝三种不同颜色的花。这场充满科技感的元宇宙演唱会，在全球引发了不小的轰动。

　　疫情之下，演唱会等大型聚集性活动的开展受到限制，虚拟演唱会则成为其中一项解决方案。不少商家、艺术家将元宇宙演唱会视为音乐产业的下一个发展阶段。

　　不久前，世界音乐人工智能大会、2021世界交响乐北京论坛相继举办，探讨未来音乐与科技相结合的发展趋势。

　　中国社会科学院数量经济与技术经济研究所副研究员左鹏飞认为：沉浸式体验、虚拟化分身、强社交属性、稳定化系统是业界普遍认可的元宇宙的基本特征。

　　中国音像与数字出版协会音乐产业促进工作委员会主任委员汪京京把我国改革开放后的音乐产业发展分为3个阶段：以实体唱片业为主流的音乐产业发展期、以数字存储传播手段为主的产业发展新时期、基于万物互联的音乐产业发展新时期。当下，处于第三阶段的音乐产业正在经历着5G、区块链、人工智能等先进科技带来的深刻变革。

　　汪京京说：“未来，随着5G网络的逐步完善与5G终端的加速普及，全场景生态下多终端设备的不断更新必将推动更多新场景体验的实现，全场景也将为音频的打开方式提供更多新的可能。”

　　元宇宙风潮下，虚拟演唱会将会越来越多。

　　当科技在改变音乐的传播、体验、消费方式的同时，也同样在改变着音乐的创作。中央音乐学院音乐人工智能与音乐信息科技系系主任、教授李小兵举例，建立在收音、录音技术进步基础上的3D音乐，就将为创作者提供更多的可能。“传统的立体声是把两只音响放在前面，但两只音响不够表达所有的信息，它们无法充分还原在音乐厅中听交响乐的感受。而能从四面八方收声的全景式录音技术，将在很大程度上突破这种局限，3D音乐也将超越传统的立体声音乐，达到听觉上的全面升级。除了为交响乐赋予三维立体声效，不拘泥于从前面发声的3D音乐可以通过后面、上面发声，让各个维度、所有方向都参与到音乐的创作表达当中。”

　　未来，在音乐厅里，我们能听到演奏的直达声、早期反射声、混响声，甚至还有附近观众的呼吸声。”这些元素共同形成了音乐厅独特的“氛围”，而这些都是传统的立体声无法将其全部捕捉。研究结果发现，3D音乐可能会对传统的和声、配器产生影响。

　　总结：积木君认为，随着VR、AR、5G、AI、、3D数字化、全景技术等“元宇宙”相关技术的走向成熟，元宇宙对音视频技术的影响将会越来越大。未来，音视频技术将会有哪些新突破，让我们拭目以待。

　　参考资料：

　　1.钛媒体：周杰伦“身陷”元宇宙

　　2.北京日报报业集团：“元宇宙”爆火的时代潮流里，未来音乐将何去何从？大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

　　码字不易，记得点赞哦，欢迎给积木君留言，更多3D数字化领域精彩内容，请关注公众号“积木易搭”。

　　过去几年，随着抖音、直播等上层应用的爆发，音视频领域的技术自上而下的发展出不少创新技术，甚至已经有一部分落地到我们的日常生活中来。

　　和传统的技术架构不同，实际上在web2的时代，90%以上的流量都由短视频、语音等流媒体媒介形式所承载，我们日常生活中的微信语音、抖音、B站等等应用，都属于流媒体的一种应用形式，所以这样的技术更容易被我们感知。

　　但传统互联网体系下，无论是企业还是机构，对音视频的编解码、存储、压缩等都还面临很多问题，一方面由于底层技术的积累不足，一方面则是市场的需求日新月异，数量的增长速度也远超以往。

　　由于上面所提到的两个原因，具体来看很多音视频相关应用在早期其实面临大量相似的问题，比如：对于直播等高清音视频传输、如何保证端到端码率问题？大规模数据需求下，如何保证算法模型能够顺利运行？原生服务器架构性能有限，底层算力不足如何解决？对于中小业务来说如何通过技术合理的节省开发成本？

　　目前国内外有很多技术厂商在做音视频的优化，除了抖音、虎牙等本身聚焦于流媒体的应用业务方外，还有很多提供音视频云平台的中间层，比如阿里云、AWS等等，而再往下，其实底层基础设施服务商也在尝试着从架构层解决这些问题——目前国际上具有成熟方案的企业之一就是英特尔。

　　如果单从视频云的技术来讲，如何来应对音视频应用的快速发展？在自研计算芯片和云音视频的结合上，英特尔其实开辟了一条非常具有普适性的道路——通过软硬协同的解决方案和开源生态，将企业底层的硬件的能力充分发挥出来。

　　如何发挥？这里举几个简单的例子。

　　大家最熟悉的应该问题是码率和清晰度，因为过去几年视频的画质提升最为明显，画面也越来越丝滑。随着通信技术尤其是5G出来之后，画面变得更加清晰，从1080P、2K开始向8k进化。而原来web1时代的单向播放，也开始衍生出弹幕、直播等实时交互。从视频云的技术来讲，如何来应对这种趋势？英特尔的一些音视频技术，比如Media SDK（集成开发包）、SVT（基于软件的视频编码技术）以及DL Boost、AVX-512（CPU指令集加速）等技术生态，在CPU占用和编解码性能上实现最佳配比的同时，更通过人工智能加速，使平台实现如内容推荐、虚拟形象等多元功能。结合英特尔一直在迭代的前沿硬件产品，相信未来在VR/AR、元宇宙等沉浸式领域会有更多应用。

　　英特尔提供了软硬协同的端到端解决方案，应对音视频领域的众多应用场景，又或者云视频内容的编解码、转码和流媒体处理以及内容分发（一般用在视频点播、直播等流媒体应用上），以及远程桌面和云游戏（低延迟、高访问）等场景中。

　　在5G通信普及之后，英特尔所提供的足够强大的数据中心算力能力，让很多场景下的前端设备也开始有足够强的计算能力（这方面有很多成熟的技术，比如英特尔的边缘计算，高效、灵活、可靠的云端计算等等），随着很多业务的发展，尤其是基础设施能力足够强大，相信未来一定能够催生出更多的视频业务场景。

　　当然，无论是云视频还是云音频，都离不开基础设施支撑，作为深耕微处理器和云架构芯片研发的英特尔，有个最大特点就是天然地提供CPU、GPU、IPU协同架构（毕竟都是自家产品，架构天然兼容），这种架构生态在技术上已经被英特尔发展的比较成熟了，除了对于下游应用来说可以大幅缩减成本——如果是企业自己开发，所需要的研发成本将指数级增加，还有个重要背景是intel一直以来的XPU战略——从初代4004开始，英特尔就有将单独的CPU转移到跨CPU、GPU、IPU和其他加速器的混合架构这样的愿景，在那时来看的确十分具有前瞻性。

　　CPU和GPU大家都熟悉，IPU是什么呢？十年来CPU一直朝着多核化趋势演变，这让个人PC的计算效率越来越高。但这种架构在云计算中不太适用，尤其是数据吞吐类的大规模计算应用。所以，英特尔推出了基础设施处理器IPU——它针对云计算的场景做了优化，允许灵活的工作负载分配，使云服务提供商减少相关任务对CPU的资源开销需求，为低延迟的虚拟化计算场景提供引擎。

　　举个例子，对于一些8K超清的视频来说，很多时候编解码是基于CPU来处理的。而像直播这样的流式处理，在进行底层数据的传输时，考虑到基于CPU的通信调度等损耗，可能要占据接近一半的计算资源，这种状况下就可以通过英特尔自身的IPU来把通信损耗，或者说负载全都通过IPU来处理，这样就可以把CPU的计算资源解放出来，让他来专注于自己的计算任务，比如关键帧压缩、编码计算等等。

　　在硬件之上，更为重要的一点还有软件——毕竟空造轮子是没法跑起来的，还得有传动装置。基于此，Intel在过去十几年针对音视频架构做了大量尝试，比如已经很成熟的针对音视频应用的软件技术，比如oneAPI、SVT和Media SDK，而像SVT这样的开源软件也是英特尔构建社区生态的一大发力点——包括常见的SPDK、DPDK，乃至于OpenStack，都逐步地走向容器化，基于Kubernetes、Docker进行大量研发，以此支持音视频技术开源社区，保证了网络层的不断优化，本质上也切合了英特尔的底层算力设施，最终提升整个行业的生产力。

　　当然还有一点不得不提，那就是算力的组成方式——不仅是音频和视频，整个互联网的算力都已经从过去的集中式服务，变成分布式的云架构了。而在涉及到分布式的边缘上，为了保证更好的低延时高效（延迟越高，也就是看视频时的卡顿越明显），诸如CDN层面的节点技术也是英特尔的发力点，比如之前发布的英特尔®QAT，主要是针对网络安全和数据存储推出的硬件加速技术，同样在音视频处理上具备强大的压缩加速能力，结合上面提到的一体化软硬件生态，可以最大幅度提升CDN性能，让端到端的传输速度得到保证。大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

　　可以看出，无论是CPU、GPU还是IPU，英特尔整体发展出的计算、存储和网络硬件产品组合及软件生态，是下游业务应用场景的最大依托。在软硬协同的基础上，建立端到端的云架构，把传统的数据中心为核心的云推向现在的分布式云，或者说边缘云，把整个架构支撑起来。甚至于更进一步，在架构基础上，直接把行业解决方做出来，换句话说，用户只需要在英特尔这里进行定制，无需做任何多余的适配开发，即买即用。

　　比如很多英特尔在进行的智慧行业接解决方案项目——智能交通、智能零售、智能城市等等。这些智能性的项目，大部分都包含了音视频的应用，比如智慧交通里需要对每一个车辆和道路状况进行实时捕捉，并对视频进行编解码后输入系统进行分析和调度。

　　而在智慧城市这种大规模数据场景下，有很多城市建筑、基础设施的音频、视频信息需要处理，这就依赖于存储层的技术，比如英特尔之前推出的傲腾内存，可以提供这类满足高带宽低延时的存储。同时针对一些应用层，比如SDFS、负载智能调度等等，英特尔也一直投入巨大的力量在支持这类开源系统，结合CPU、IPU等基础设施和统一的生态架构，其实不难看出，英特尔本质上就是通过自研的软硬件一体化解决方案，结合开源社区的力量一起形成可以落地的解决方案。

　　过去十年，算力革命的发展其实经历了多个阶段，而用户的需求也发生了很大改变——比如，以AI为首的数据密集型计算越来越多，传统的以CPU为中心的计算架构必须要得以进化才能适应这一趋势，原因也很简单：传统的CPU中心架构，其计算和网络通信的时延较大，数据量剧增的同时，带宽却有了一定瓶颈；可以把云计算想象为一个水池，水量越来越大，调度水资源的管道却因为太窄而导致调度速率渐渐跟不上调度需求。这就驱动着很多底层技术设施进行突破和革新。

　　从硬件到软件，技术的发展一直遵循着某种规律。在经历了长视频、短视频、直播等应用的火爆期后，元宇宙等新兴概念也异军突起，超视频时代的到来，其实也是水到渠成的一件事，这得益于音视频底层架构的不断演进以及软硬件技术的不断进步。

　　在未来，以人工智能和5G为基础，针对VR、AR、云视频等场景，我相信还会衍生出更多有意思的技术创新和应用，让超视频时代的音视频体验更极致、更多元。

2021 年音视频领域有哪些突破性技术与发展？明年甚至更远的未来是否会迎来技术性拐点？-第50张图片