河套 IT TALK 65:(原创)让人眼花缭乱的超高清视频编解码格式

河套 IT TALK 65:(原创)让人眼花缭乱的超高清视频编解码格式

当我们谈论视频技术时,超高清视频(Ultra High Definition,简称UHD)无疑是当今最令人兴奋的领域之一。上期,我们介绍了一下高动态范围(HDR)发展面临适配性、流程复杂、两极化的挑战,了解到视频从产生到播放,中间经历的复杂流程,也牵扯纷繁复杂的利益相关人,所以在视频内容编解码方面,存在着各方利益的博弈。各大组织、企业都有在视频编解码上投入,致力于争夺技术和专利上的制高点。本期,我们就聊聊超高清视频编解码的现状。


视频压缩编解码格式复杂现状背后的无奈

视频压缩编解码领域,一直都特别繁杂,让人看得眼花缭乱,各种彼此不完全兼容的编解码格式共存,从而导致市场碎片化。之所以有这么多可用的视频编解码格式,单纯从技术上来说,是因为有各种各样的用例、设备和平台,它们对视频编码和解码有不同的要求和约束。

例如,一些用例可能需要低延迟编码以进行实时流媒体或实时通信,而其他用例可能优先考虑高质量压缩以进行视频存储和分发。同样,不同的设备和平台可能具有不同级别的计算能力和对特定编解码格式的硬件支持。

因此,有许多不同的视频编解码格式可用,它们在压缩效率、计算复杂性和与不同设备和平台的兼容性之间具有不同的权衡。一些流行的视频编解码格式包括 H.264/AVC、H.265/HEVC、VP9和AV1 等。

但我们也看到多种编解码格式在市场上争夺主导地位杀的天昏地暗,复杂性源于多种因素,除了技术之外,更多是行业标准和专利许可的博弈。

视频编解码格式复杂性的非技术原因之一是专利格局。许多视频编解码格式受专利保护,这使得其他公司很难在不侵犯这些专利的情况下开发竞争编解码格式。这可能会导致拥有强大专利组合的公司比规模较小的竞争对手更具优势,从而使新的编解码格式难以获得吸引力。

造成视频编解码格式复杂性的另一个因素是工业利益之间的博弈。开发和拥有视频编解码格式的公司在推广自己的技术方面具有既得利益,并且可能会采取营销策略和游说活动来推广他们的编解码格式。这可能会在市场上造成混乱,并使消费者难以知道哪种编解码格式最适合他们的需求。

从压缩技术来看,视频压缩编解码分为无损视频压缩和有损压缩。从产业角度来划分,分为制播域和发布域两大类型。今天我们就按照后者的维度和大家聊聊高清视频的编解码格式。

制播域的高清视频编解码格式

制播域格式主要由摄像机和非编系统(非线性编辑系统的简称)厂家带动和主导的,以通用编解码标准为基础扩展支持4:2:2色度和10-12bit精度编码为主要特点。制播域编解码格式有很多,今天介绍主流的几种:

H.264/AVC

高级视频编码( AVC ),也称为H.264或MPEG-4 Part 10,是一种基于面向块的运动补偿编码的视频压缩标准。它是由ITU-T 视频编码专家组(VCEG)和ISO/IEC JTC 1运动图像专家组(MPEG)联合发布的视频编解码格式标准。也是迄今为止,最常用的视频内容录制、压缩和分发格式,截至 2019 年 9 月,91% 的视频行业开发人员使用它,或者它的变种。AVC支持高达8K UHD 的分辨率。

它是蓝光光盘上最常用的视频编码格式。它也被互联网大量的视频资源以及各种地面高清电视广播广泛使用。

H.264的核心技术是:整数离散余弦变换(整数 DCT)、可变块大小分割和多画面间预测。

补充小知识:离散余弦变换(DCT)

离散余弦变换( DCT )根据以不同频率振荡的余弦函数之和表示有限的数据点序列。这是由一位印度裔美国电气工程师和计算机科学家Nasir Ahmed在1972年发明的一个数据压缩变换算法。DCT 是使用最广泛的数据压缩变换算法,是大多数数字媒体标准(图像、视频、音频、广播电视、语音编解码等等)的基础,常用于数字信号处理、电信设备,以减少网络带宽使用和数字内容的存储空间。

整数DCT是基于DCT的一种快速算法来降低DCT的计算复杂度。整数DCT压缩,也成为块压缩,以离散 DCT 块集的形式压缩数据。DCT 块大小一般包括 4×4 和 32×32 像素之间的各种整数 DCT 大小。DCT能够实现高数据压缩比下的高品质内容。然而,当应用大量DCT压缩时,可能会出现块状的压缩伪影(Compression artifact),比如下面的右图。

H.264/AVC 第一个版本的标准化于 2003 年 5 月完成。截至2021 年 8 月 22 日,已经发布了版本27。

H.264并不是免费的标准。H.264 专利许可证由MPEG LA专利池管理。获得 H.264 技术的商业使用需要向 MPEG LA 和其他专利所有者支付版税。为了避免为 AVC 支付许可费用,一些公司和组织开发了自己的编解码格式,这些编解码格式基于 AVC 标准,但使用不同的技术或算法进行压缩。例如,XAVC 和 AVC-Intra 都是基于 AVC,但分别由 Sony 和 Panasonic 开发,以避免支付使用原始 AVC 编解码格式的许可费。同样,Apple ProRes 是 Apple 开发的专有编解码格式,它也基于 AVC,但针对专业视频制作工作流程进行了优化。

XAVC

XAVC是Sony于 2012 年 10 月 30 日推出的一种录制格式。XAVC 使用H.264/MPEG-4 AVC的 5.2 级,这是该视频标准支持的非常高的级别。支持每秒 60 帧(fps) 的4K 分辨率(4096 × 2160 和 3840 × 2160) 。XAVC 支持8、10 和 12 位的颜色深度。色度采样(Chroma subsampling)可以是 4:2:0、4:2:2 或 4:4:4。素材交换格式(MXF)可用于数字容器格式。XAVC 支持范围广泛的内容制作,包括帧内录制和长画面组(GOP) 录制。XAVC的规范缺点是并未扩展到8K。
AVC-IntraAVC-Intra是Panasonic在2007年4月宣布开发支持的一种视频编码格式,用于 Panasonic 的高清广播产品,例如配备P2 卡的广播摄像机。AVC-Intra同样,也是基于H.264/MPEG-4 AVC标准。它定义了 10 位帧内压缩,10 位亮度和色度,便于编辑并保持最高的视频质量。支持4:2:0,4:2:2 和4:4:4色度采样。支持4K分辨率。ProResApple ProRes是苹果在2007年开发的一种高质量、“视觉无损”的有损 视频压缩格式。ProRes用于后期制作,支持高达8K的视频分辨率。ProRes 编解码器系列使用基于离散余弦变换(DCT) 的压缩算法。ProRes 被广泛用作商业广告、特写、蓝光和流媒体中高清广播文件的最终格式交付方法。ProRes 是一系列中间编解码器。仅使用帧内压缩来实现的,其中每个帧都是独立存储的,并且可以在不依赖于其他帧的情况下进行解码。ProRes 支持不同的数据速率和不同的分辨率(可变比特率 ( VBR ) 编码)。所有 ProRes422 变体都在 10 位色深下使用 4:2:2 的色度子采样。ProRes 4444 和 4444 XQ 以 4:4:4 模式对颜色进行采样,颜色深度为 10 或 12 位,并且可以选择包括一个 alpha 通道。JPEG-XSJPEG XS (ISO/IEC 21122) 是由联合摄影专家组(JPEG)在2019年推出的最新的浅压缩编解码标准,JPEG XS是一种用于专业应用程序的可互操作、视觉无损、低延迟和轻量级图像和视频编码系统。JPEG-XS具备成为超高清制播域主流格式的潜力。优势在于标准化、低延迟和低复杂性。基于离散小波技术应用上的一些突破,实际测试能够以16:1压缩率达到视觉无损的质量,满足8K编辑的质量要求且编解码效率很高,有望以单一格式满足制作、传输和播出的需求,对于提高超高清制播效率和降低成本具有重要意义。该标准的应用包括为虚拟现实、无人机、使用摄像头的自动驾驶汽车、游戏和广播流式传输高质量内容。JPEG XS有三个关键技术能力:(1)视频透明压缩;(2)低延迟;(3)轻量级。JPEG XS支持精确的比特率分配、多平台互操作性、数字无损编码(MLS)、高动态范围(HDR)内容和RAW Bayer/CFA压缩。中央广播电视总台和北京台已经开始对该技术的尝试,产品生态逐步完善。除了上述提及的编解码,制播域还有其他的编解码比如:AVCHD、REDCODE RAW、Canon XF-AVC等,这里不再一一展开赘述。

补充小知识:色度采样(Chroma subsampling)

色度(Colorfulness)指的是色彩的纯度,也叫饱和度或彩度,是“色彩三属性”之一。利用人类视觉系统对色差的敏锐度低于对亮度的敏锐度,色度采样(Chroma subsampling)指在表示图像时使用较亮度信息低的分辨率来表示色彩(色度)信息。数字信号通常被压缩以减小文件大小并节省传输时间。因此往往通过将更多带宽分配给亮度分量(通常表示为 Y’)而不是色差分量Cb和Cr来优化视频系统。色度采样(Chroma subsampling)方案通常表示为三部分比例J : a : b

J:水平采样参考(概念区域的宽度)。通常,4。

a :第一行J像素中的色度样本数(Cr,Cb ) 。

b :第一行和第二行J像素之间色度样本( Cr,Cb)的变化次数。

4:2:2就表示:每行4个亮度采样,第一行J像素中的色度样本数2,第一行和第二行J像素之间色度样本( Cr,Cb)的变化次数也是2。

发布域的高清视频编解码格式

发布域高清视频编解码格式使用场景广泛,各大组织、企业投入力度大,致力于争夺技术和专利上的制高点。HEVC在前面谈到制播域视频编解码的时候,我们就谈到了H.264/MPEG-4 AVC。这个编解码广泛应用于制播域和发布域。高效视频编码( HEVC ),也称为H.265和MPEG-H Part 2,是在H.264/MPEG-4 AVC基础上开发的视频编解码格式。它还是由ITU-T 视频编码专家组(VCEG)和ISO/IEC JTC 1运动图像专家组(MPEG)联合成立的视频编码联合协作小组 (JCT-VC) 标准化的,在2013年6月份首次发布。现在已经演进到8.0版本了。与 AVC 相比,HEVC在相同视频质量水平下提供 25% 到 50% 更好的数据压缩。它支持高达 8192×4320 的分辨率,包括8K UHD, 与主要的 8 位 AVC 不同,HEVC 的保真度更高的 Main 10 配置文件已被整合到几乎所有支持的硬件中。截至 2019 年,43% 的视频开发者使用 HEVC,是仅次于 AVC 的第二大使用最广泛的视频编码格式。同样是整数离散余弦变换(DCT),AVC 使用块大小为 4×4 和 8×8,而HEVC 使用块大小在 4×4 和 32×32 之间灵活调整。其他的技术变化还包括将模式比较和差异编码区域从 16×16 像素扩展到最大 64×64,改进可变块大小分割,改进同一图片内的“帧内”预测,改进运动矢量预测和运动区域合并,改进的运动补偿过滤,以及称为样本自适应偏移过滤的附加过滤步骤。不过,HEVC还是犯了AVC同样的毛病,就是专利费。甚至,HEVC的综合许可费还高于 AVC,这也是HEVC 在网络上采用率低的主要原因之一。而且,不仅如此,高昂的专利许可费,还让很多大的科技公司干脆另起炉灶,搞起了开放媒体联盟(Alliance for Open Media,简称:AOMedia),并在2018年3月28日发布了免版税的替代视频编解码格式AV1。

AV1

刚刚说到,考虑到HEVC专利许可所涉及的高成本和不确定性,七家初创成员:亚马逊、思科、谷歌、英特尔、微软、Mozilla和Netflix,在2015年宣布成立开放媒体联盟(AOMedia),目的就是开发免版税许可的高清视频编解码格式。AV1就是这个背景下的产物。AV1第一个版本在2016 年 4 月 7 日发布。

从技术继承性来看,AV1 是一种传统的基于块的频率变换格式,基于 Google 的 VP9,AV1在VP9/HEVC基础上能够提高约25%的编码性能。AV1的位深支持8、10和12,色度采样支持4:0:0、4:2:0、、4:2:2和4:4:4。

AV1的优势在于免版税,但也存在复杂度偏高,编码效率低,硬件支持少的缺点。历史上VP8、VP9的推广并不算成功,但由于谷歌对AV1在自有生态的积极推进和开放联合的态度,应用前景比较乐观,如Netflix、Youtube、Meta(原Facebook)等公司已经在他们的部分产品中使用了AV1编码器。

VCC

通用视频编码( VVC ),也称为H.266、ISO/IEC 23090-3、和MPEG-I Part 3。是在H.265/HEVC基础上开发的视频编解码格式。它还是由ITU-T 视频编码专家组(VCEG)和ISO/IEC JTC 1运动图像专家组(MPEG)联合成立的视频编码联合协作小组 (JCT-VC) 标准化的,在2020年7月份首次发布。现在已经演进到2.0版本了。

它支持从极低分辨率到4K和16K以及 360° 视频的各种分辨率。VVC 支持YCbCr 4:4:4、4:2:2 和 4:2:0,每个分量 8-10 位,BT.2100宽色域和超过 16 档的高动态范围 (HDR) (峰值亮度1000、4000 和 10000尼特)、辅助通道(用于深度、透明度等)、从 0 到 120 Hz 及更高的可变帧率和分数帧率、时间(帧率)、空间(分辨率)、SNR、色域和动态范围的可缩放视频编码差异、立体/多视图编码、全景格式和静态图片编码。据说其压缩视频的效率比 HEVC 高 40%,但应用尚未普及。VVC尽管很强大,但还是收取专利许可费的。AVS中国AVS标准历经20年的发展,已经形成AVS,AVS2和AVS3共3代标准,标准先进性和产业化水平也在逐步提升。AVS(AVS+)用于高清,AVS2对标H.265/HEVC,是国内4K信号卫星传输、数字机顶盒的必备格式,并发表作为 IEEE 国际标准 IEEE 1857.4。经测试,AVS2的编码效率是AVS+的两倍多,压缩率超过国际标准HEVC(H.265)。与第一代AVS标准相比,第二代可以节省一半的传输带宽。AV3是面向8K、VR和流媒体的最新编码标准,其编码性能比AVS2提升约30%。2020年春晚的8K AVS3春晚直播系统,通过8K机位进行独立信号采集制作,采用国产8K AVS3编码器压缩成120Mb码流,统一传输到全国11个省市户外大屏进行同步播出。

2004年,AVS成立了管理和授权专利的专利池的委员会。第一代AVS标准的使用费仅为1元/终端。该计划仅对专利池对终端产品(如电视)收取少量使用费,不包括内容提供商和运营商。为扩大AVS的产业生态,TCL、创维、华为、海尔、海信、浪潮、长虹等几家大厂在2005年5月成立AVS产业联盟,制定和推广AVS标准。AVS系列标准作为国内主导的编解码标准,在技术先进性、专利收费等方面应对当前复杂国际形势具有重要意义。

高清视频编解码未来发展趋势

在高清视频编解码研究领域,压缩效率和内容品质之间一直存在着一定的矛盾。包括目前最新的H.266/VVC和制定中的EVC等标准,都是基于搜索、变换、熵编码的传统编码框架,编码复杂度提升和质量收益比越来越小,随着算法的不断优化和硬件设备的提升,现有的编解码算法已经达到了一定的局限性。要在保持内容品质的前提下提升压缩比,需要寻找新的解决方案。而各种视频应用如VR、云游戏对高帧率和高分辨率依然有提升的需求,需要在技术上有更大的突破。
而且再创造新的高清视频编解码格式,未必是理想的选择方向。因为新的编解码标准通常需要产业和生态的完善支持才能有生命力,而编解码标准的多样化会加速生态碎片化,导致建立生态的难度越来越大。

一种可能的方法是深度结合人工智能技术和视频编解码压缩算法。也称为智能编解码技术。这种技术通过端到端基于神经网络的智能编解码,可以通过学习视频的内容特征和规律,自动寻找最优的编码方式,从而实现更高的压缩比。例如,可以利用深度学习技术对视频进行超分辨率重建,从而减少视频中的冗余信息,提高压缩比。此外,人工智能还可以通过对视频内容的理解,对不同区域进行有针对性的编码,进一步提高压缩比。具体采用技术包括:像素概率重建、光流估计、感知编码、语义编码等多种方法,来实现超低码率的编解码。具体来说:

像素概率重建:通过学习视频的内容特征和规律,神经网络可以根据已知的像素值来预测未知像素值的概率分布。这种方法可以有效地减少视频中的冗余信息,从而实现更高效的编码。

光流估计:通过对视频中的像素运动进行分析,神经网络可以预测下一帧视频的像素值。这种方法可以减少视频中的冗余信息,从而实现更高效的编码。

感知编码:基于人眼对图像的感知,神经网络可以将视频中的重要信息进行高效编码,而将不重要的信息进行压缩。这种方法可以实现更好的视频质量和更高的编码效率。

语义编码:基于对视频内容的理解,神经网络可以将视频中的相关信息进行高效编码。这种方法可以减少视频中的冗余信息,并提高视频的压缩比。

总之,智能编解码技术是当前研究的热点之一,通过采用端到端基于神经网络的智能编解码技术,可以实现更高效的视频编解码和更好的视频质量。该方向主要处于学术上的探索阶段,但随着算力的提升和人工智能技术的发展,智能编解码技术有望成为未来的发展方向,在各种应用领域中得到广泛应用。已经有很多厂家在此方向进行尝试。通常在编码预处理(降噪、场景检测等)、ROI感兴趣区域编码、码率自适应算法、编码工具选择等方面都能进一步提高现有编解码器的性能且保持兼容性,有利于更好利用现有数量庞大的终端设备。

从上所述,我们必须认清现实:多种格式并存可能成为编解码技术常态。由1到2个编解码格式覆盖所有行业的情况已经过去,现在的编解码标准依然具有生命力和提升价值,国产化标准也具备了相当的竞争力。很难预计新格式中谁能成为超高清发布域的主导格式,多格式支持很可能成为一种常态。相信,随着硬件设备的不断升级和人工智能算法带来的不断优化,即便不出现新的高清视频编解码格式,未来的高清视频编解码压缩技术还是能实现更高的压缩比和更好的内容品质。今天,我们就先聊到这里,下一期,我们再展开谈一下超高清视频的音频技术。