河套 IT TALK 66:(原创)超高清视频的三维声技术

河套 IT TALK 66:(原创)超高清视频的三维声技术

当我们谈论视频技术时,超高清视频(Ultra High Definition,简称UHD)无疑是当今最令人兴奋的领域之一。上期,我们介绍了让人眼花缭乱的超高清视频编解码格式,以及各大组织、企业在视频编解码上的投入,博弈与纷争,致力于争夺技术和专利上的制高点。本期,我们就聊聊和超高清图像同样非常重要的技术——三维声。


立体声-环绕声-三维声

自古以来,声音一直是人类体验不可或缺的一部分。从鸟鸣到风声,我们总是被丰富的声音所包围。几个世纪以来,从留声机到数字音频工作站,人类开发了各种捕捉和再现声音的技术。而声音技术在电影、电视、游戏等影音艺术中的作用显而易见。有声电影诞生以来,声音技术扮演越来越重要的角色。由于能够提供画面所不具备的亲密感和物理存在,声音有时更能打动我们。导演科波拉和乔治·卢卡斯都曾表示,声音在电影中的重要作用“占到整体体验的一半”。在影视作品《权力的游戏》中,当极速飞过的巨龙卓耿长啸的怒火横扫多斯拉克骑兵的隆隆马蹄声在耳畔响起,没有人会否认他们在和画面中的人物一起经历那种紧张、激动或是恐惧。

音频技术的演进历程是“单声道-立体声-环绕声-三维声”,相应地,人耳感受经历了由“点”及“线”到“面”再到“空间”的过程。

立体声可以追溯到20世纪初,当时研究人员开始探索声音定位的心理声学。20世纪30年代,EMI的英国工程师Alan Blumlein发明了现代立体声技术,并且获得了立体声唱片、立体声电影和环绕声的专利。为该领域的进一步研究铺平了道路。

立体声是一种基本的声音设置,它使用两个扬声器来创建左右声场。左右声道分别录制和混音,并通过独立的扬声器播放,营造出一种宽度感和深度感。立体声是最常见的声音设置,用于从音乐播放到电影配乐的所有内容。

环绕声是一项已经存在了一段时间的技术,它通常涉及在房间周围放置扬声器以创造更加身临其境的聆听体验。最常见的设置是 5.1 系统,它有五个扬声器(左前、右前、中置、左后、右后)和一个低音炮。环绕声旨在让听众置身于动作之中,声音来自不同的方向,营造出一种空间感和维度感。

Ambisonics技术中的虚拟麦克风,这种算法可以保证在任何一阶指向性的恒定增益。这种效果会衍生出圆形、宽心形、心形、超心形、或八字形。

三维声(3D Sound)的概念可以追溯到 20 世纪 70 年代,英国数学家和声学家 Michael Gerzon 开发了一种新的 3D 声音方法。Gerzon 的方法被称为 Ambisonics,除了水平面之外,它还覆盖听者上方和下方的声源。它使用数学模型来捕捉完整的 3D 声场并使用环绕声系统再现。Ambisonics算法使用四个或更多麦克风捕捉来自各个方向的声音,然后对其进行处理以创建可通过多个扬声器播放的声场。通过调整不同通道的电平和时间,3D 音响系统可以营造出来自不同方向和距离的声音效果。虽然 Ambisonics 从未取得广泛的商业成功,但它为三维声技术的未来发展奠定了基础。

从单声道、立体声、环绕声发展到三维声,技术演进使声音的制作手段不断进步。从环绕声时代开始,得益于多声道良好的分离度、数字系统宽阔的动态范围以及独立出来的低频效果声道,观众的观影体验逐渐被改变,从作为局外人简单地看和听,变成沉浸在叙事世界中。当动作发生时,它把观众定位在动作中间,使其注意力保持在即将到来的那一刻;它突出影视剧的叙事性,使观众与角色处在同一世界中,可以像角色一样体验故事;它“隐藏”了影院自身的空间,以创造出来的叙事环境空间取而代之;它使得声音和画面更紧密同步,表现画面内的事件和观众能听到的画外故事世界,为画面内容提供特殊的空间定位。最终,观众和叙事世界之间的距离“缩小”了,甚至能感觉到自己被“移入”故事场景之中的那个世界。

三维声的技术内核

三维声是一项较新的技术,旨在通过模拟来自不同方向和距离的声音来创造更加身临其境和逼真的聆听体验。这项技术使用复杂的算法来创建一个三维声场,听者可以感觉到它来自上方、下方、前方、后方,甚至周围。换句话说,三维声试图模仿我们的耳朵和大脑在现实生活中处理声音的方式。三维声技术的出现,让声音在原来平面声场的基础上,增加了高度感,每个声音精准定位,将声场还原为三维空间,更接近真实世界,强化了沉浸式感受。三维声技术作为超高清体验的重要组成部分,带来音频的空间感、方位感、高还原度、高沉浸度,带给观众更具感染力的临场感,个性化和交互体验。

三维声技术决定超高清视频的声音真实感。相比目前常用的5.1环绕声,三维声增加了多个顶部声道,通过算法模拟人耳听音过程重建三维虚拟声像,或通过扬声器优化布局,实现了声场的精确重构。观众在听音过程中不仅能辨别声源的位置和方向,还能感知声源的移动轨迹,从而使得音效更加逼真、细腻。沉浸式的三维声配合高清晰度、高色彩还原度的超高清画面,能够真实再现场景,给观众以更具沉浸感、参与感的体验。

5.1环绕声诞生之初,业内曾经探讨过究竟使用多少声道才能让观众获得最为真实的沉浸式体验。然而三维声技术并没有纠结于声道的数量,而是引入了“对象”的概念。在三维声场内,每一个“对象”都具有与之对应的位置坐标。对于内容生产者(导演、混音师)来说,“对象”这一概念的应用可以实现更加精准的定位和更加平滑的位移。例如,配合电影中摄影机视角移动和切换,每个声音的方位也在不停地游移。声音这种飘忽不定的呈现方式无意中为银幕前的观众强化了沉浸感和参与感,这种效果在传统制作方式中是很难达到的。

三维声体验中使用了多项关键技术,包括:

头部相关传递函数 (HRTF):HRTF 是一种数学模型,描述了声波从声源传播到耳道时如何转换。通过模拟听众的 HRTF,三维声音响系统可以创造更准确和逼真的空间音频体验。该算法考虑了听者头部和耳朵的形状,以模拟声波进入耳道时被过滤和修改的方式。通过将不同的 HRTF 应用于来自不同方向的声音,三维声系统可以营造出声音来自空间特定位置的印象。

HRTF滤波效果

基于对象的音频:基于对象的音频是三维声中使用的一项关键技术,它允许将声音视为可以定位在三维空间中的单个对象。这使声音工程师能够创建更逼真和动态的声场,模拟来自不同方向和距离的声音。通过使用 AI 算法分析声音对象的声学特性,声音工程师可以创建更准确、更逼真的声音对象,以响应环境的变化。

空间音频处理:空间音频处理是一组用于在三个维度上处理声音的技术。这包括声场旋转、空间滤波和空间混响等技术,可用于创造更加身临其境和逼真的聆听体验。

  • 声场旋转:此技术涉及操纵声场的方向以创建空间感。通过旋转声场,音响工程师可以模拟来自不同方向的声音,创造更加身临其境的音频体验。例如,在虚拟现实游戏中,声场旋转可以用来模拟物体围绕听者头部移动的声音。
  • 空间过滤:该技术涉及选择性地过滤音频信号中的某些频率,以模拟声波与听者的头部和耳朵相互作用的方式。通过模仿声波在空气中传播并与听者的头部互动时被过滤和扭曲的方式,空间过滤可以创造更逼真的和身临其境的音频体验。
  • 空间混响:这项技术涉及模拟声波从房间表面反弹的方式,在音频环境中创造空间感和深度感。通过为音频信号添加空间混响,音响工程师可以营造出听者身处特定房间或环境的错觉,即使他们是戴着耳机聆听。

这些技术结合起来可以创建高度逼真和身临其境的音频体验,模拟 3D 音频环境。空间音频处理是一个复杂的技术领域,但通过将这些技术与头部相关传输函数和双耳渲染等其他先进技术相结合,音响工程师可以创造真正逼真的音频体验,将听众带到新的世界和环境中。

三维声的应用场景

三维声技术解决声音从构建到还原的整个环节,三维声技术用于多种应用,可在音乐会、大型体育赛事、戏曲等的直播/制播和电影、纪录片等影视内容制作、家庭环境、影院环境、个人、AR/VR以及车载中得到广泛应用。包括:

电影和电视:三维声彻底改变了我们在电影和电视节目中体验声音的方式。借助三维声,音响工程师可以创造更加身临其境和逼真的音频体验,模拟来自不同方向和距离的声音,以增强观众对内容的情感投入。

音乐制作:三维声也被用于音乐制作,以创建更加身临其境和空间准确的录音。借助三维声音效,艺术家和制作人可以创造出更加动态和逼真的声场,让听众能够以更发自内心的方式体验音乐。

虚拟现实和增强现实:三维声是虚拟现实和增强现实应用程序的重要组成部分,可让用户体验完全身临其境且空间准确的音频体验。这在游戏中尤为重要,因为三维声音效可以增强玩家在游戏世界中的临场感和沉浸感。虚拟现实的头盔的三维声技术要更为复杂,因为为了保证沉浸感,虚拟环境中相对固定的声音也能感知头部的运动而调整相对位置,以确保给人以稳定声音来源的感受。

现场活动:三维声技术也被用于音乐会和戏剧表演等现场活动。借助三维声,音响工程师可以为观众创造更具动感和身临其境的音频体验,模拟来自不同方向和距离的声音,以增强表演的情感影响。前面提到的“对象”概念,在直播节目制作中也可以为混音师和消费者提供更多选择。例如,将解说等语言类内容作为“对象”定义,即可实现对语言的开关、切换选择甚至是音量大小的调整;将事件中某些信息内容定义为“对象”,可以让混音师实现个性化制作或者让消费者实现定制化收看。在2018年俄罗斯足球世界杯的三维声制作中,制作团队将两支对阵球队球迷的群杂效果定义为两组“对象”,分别放置在声场的左右两边。实际转播中的呈现效果一如真实的比赛现场,双方球迷的呐喊助威随着攻守的易位此消彼长。观众如果愿意,还可以选择关掉对方球迷的声音而只听自家球迷的助威。

汽车音频:三维声越来越多地用于汽车音频系统,以创造更逼真的和身临其境的聆听体验。通过模拟三维声场,驾驶员和乘客即使坐在车内也能体验到仿佛置身于音乐厅中的音乐。

三维声的技术标准和解决方案

维声主流标准及解决方案实现厂家集中,以杜比、DTS等为主,专利壁垒较高,并形成了较为成熟的生态体系。目前,四种主流的三维声技术解决方案分别为杜比全景声系Dolby Atmos(美国Dolby Labratories)、临境音DTS:X(美国DTS)、Auro 3D(比利时 Auro Technologies)、MPEG-H(德国Fraunhofer IIS)。

杜比全景声 (Dolby Atmos) 通过模拟来自不同方向和距离的声音来创造更加身临其境和逼真的聆听体验。与基于声道音频的传统环绕声不同,杜比全景声 (Dolby Atmos) 是基于对象的,这意味着声音被视为可以放置在三维空间中的单独对象。这使音响工程师能够在声场内精确定位声音,创造更加逼真和动态的聆听体验。杜比全景声 (Dolby Atmos) 可以通过各种扬声器配置进行播放,包括传统的 5.1 或 7.1 环绕声设置,但它还支持额外的纵向声道和头顶扬声器,以创造更具包围感的声场。此外,杜比全景声 (Dolby Atmos) 可以通过耳机播放,以在移动设备或私人聆听中营造更加身临其境的聆听体验。

DTS:X 是由 DTS(数字影院系统)开发的一种类似于杜比全景声 (Dolby Atmos) 的 三维声格式。它使用基于对象的音频来创造更加身临其境和逼真的聆听体验。

Auro-3D 是由 Auro Technologies 开发的一种 三维声格式,它使用独特的扬声器配置来创建更具包围感的声场。Auro-3D 支持多达 13.1 声道的音频,包括纵向声道和顶置扬声器。

Sony 360 Reality Audio 是一种专为音乐播放而设计的 三维声格式。它使用基于对象的音频来创造更加身临其境和空间准确的聆听体验。

MPEG-H 由运动图像专家组 (MPEG) 开发的标准,支持沉浸式音频,包括用于广播和流媒体应用的三维声。MPEG-H 也是一种基于对象的音频格式,可以将音频传送到各种扬声器配置,从传统的立体声或环绕声设置到更复杂的三维声系统。MPEG-H 的设计具有灵活性和可扩展性,允许广播公司和流媒体服务向各种设备和播放系统提供身临其境的音频。它还包括高级功能,例如交互式音频,允许观众根据自己的喜好调整音频组合,以及音频描述,为视障观众提供额外的音频信息。

在编解码方面,杜比全景声的编码技术和MPEG-H编码技术较为成熟,如Dolby ED2、Dolby DD+集成到了音频工作站Protools、Nuendo中,MPEG-H已被韩国4K频道使用。在渲染方面,通过算法模拟人耳听音过程重建三维虚拟声像,或通过扬声器优化布局重构声场。杜比全景声的渲染方案在影院、电视、手机等产品中均有使用,Auro 3D的扬声器布局方案已被ITU系列标准采用。

我国研制的三维声标准及解决方案已步入推广落地阶段。我国的三维声标准由世界超高清视频产业联盟(UWA)牵头,与AVS工作组协同,联合产业端到端生态,于2022年4月推动发布三维菁彩声(Audio Vivid)技术团队标准草案,并被国家广播电视总局接纳为行业标准。喜马拉雅已完成了120小时有声书音乐内容制作,总台中秋晚会采用该标准进行直播应用示范。国内企业的WANOS全景声解决方案已于央视网CNTV、芒果TV、腾讯视频、百度云合作布局应用于央视网“2019年春节晚会”、芒果TV“歌手2019”“声入人心”等重要节目中,并服务了全国300多个影厅。

三维声的未来展望

三维声预计未来将与虚拟现实、元宇宙等结合逐步,并进一步向会议办公、医疗健康等场景延伸。随着音视频技术逐步由向沉浸式、交互式方向发展,三维声将拓展产业互联网的应用,深化行业应用领域的使用,扩大技术规范在垂直行业的影响力,预计2023~2025年将加速发展。随着技术的不断进步,三维声的潜在应用几乎是无限的。从医学模拟到建筑声学,三维声有可能彻底改变我们在无数领域体验声音的方式。此外,人工智能和机器学习的进步正在为三维声技术开辟新的可能性,从而实现更准确和个性化的空间音频体验。

今天,我们就先聊到这里,下一期,我们再展开谈一下超高清视频的超分技术。