沉浸式音頻技術(shù)的制作、播放及發(fā)展與應(yīng)用

來源：時(shí)代拓靈編輯：ZZZ 2024-02-21 10:03:59 加入收藏

什么是沉浸式音頻?大家最近可能經(jīng)常聽到“沉浸式音頻”，“全景聲”這兩個(gè)名詞，那么它們與之前的環(huán)繞聲或者3D音頻有什么本質(zhì)的區(qū)別嗎?

　　沉浸式音頻技術(shù)近年來逐漸擴(kuò)大其應(yīng)用范圍，常見應(yīng)用于VR，影視，會議等場景。本文由時(shí)代拓靈創(chuàng)始人&CEO，孫學(xué)京博士LiveVideoStack線上分享的內(nèi)容整理而成，從聲場采集，傳輸，渲染播放算法以及軟硬件等方面詳細(xì)介紹了沉浸式音頻技術(shù)的制作、播放及發(fā)展與應(yīng)用。

　　大家好，我是來自時(shí)代拓靈的孫學(xué)京。本次分享將主要介紹沉浸式音頻的從采集制作一直到播放整個(gè)鏈條上所需要的一些軟件和硬件的技術(shù)，詳情如下：

　　1、沉浸式音頻簡介

　　1.1什么是沉浸式音頻?

　　通俗地講，它們之間可能有很多的相似之處。但就技術(shù)層面來說，從底層架構(gòu)，到最終的展現(xiàn)形式都有非常大的變化。

　　首先我們把傳統(tǒng)的5.1音頻擴(kuò)展為不僅包含聲道也包含對象和場景。目前，沉浸式音頻類型主要分為三大類：基于聲道Channel based audio(CBA)、基于對象Object-based audio(OBA)、基于場景Scene-based Audio(SBA)。

　　目前市面上一些主流的系統(tǒng)主要是Dolby Atmos、MPEG-H以及影視行業(yè)的SMPTE 2098協(xié)議。其主體還是基于Dolby Atmos，但同時(shí)它還允許其它不同標(biāo)準(zhǔn)被兼容在此協(xié)議內(nèi)，也就是說Dolby Atmos某種意義上是SMPTE 2098的一個(gè)子集，我們可以在兼容Dolby Atmos的同時(shí)，推出自己的標(biāo)準(zhǔn)。因此我相信，接下來沉浸式音頻將來會迎來一個(gè)非常大的利好。

　　1.2沉浸式音頻-傳統(tǒng)到3D音效

　　基于揚(yáng)聲器的沉浸式音頻，常見的是5.1或7.1，如果是耳機(jī)設(shè)備，則會有HRTF雙耳3D環(huán)繞的音頻。5.1音頻實(shí)際上是固定的聲道位置，由左前、右前、左后、右后構(gòu)成，而7.1就是在5.1基礎(chǔ)上再加兩個(gè)背后的聲道位置，.1就是低頻通道的意思。

　　目前新的沉浸式音頻，不再局限于平面式的聲道，進(jìn)一步支持全面360度*360度的沉浸式音頻(支持高度)。例如影院的杜比影廳，頂部都會布有很多的喇叭;如果是家庭的話，我們經(jīng)常叫做5.1.2，就是在頂上再設(shè)置兩個(gè)音箱，或者7.1.4就是在頂上再設(shè)置4個(gè)音箱。

　　真正想要達(dá)到一個(gè)非常好的沉浸式效果，頂部的高度信息帶來的對人的感官沖擊感是非常強(qiáng)烈的，比如下雨或者打雷的聲音。即使在平時(shí)可能感覺不到很明顯的差別，但當(dāng)你真的專注于音頻效果時(shí)，增加了高度信息的音頻感覺就會非常震撼。

　　這種變革如果停留在傳統(tǒng)的5.1格式上是很難實(shí)現(xiàn)的。盡管傳統(tǒng)的做法通過布多層的方式也可以模擬出高度信息，但是并沒有從根本上，即制作混音端來改變底層的架構(gòu)。因此，高度信息的增加實(shí)際上是對影視行業(yè)沉浸式音頻制作的巨大改變。加入高度信息的音頻會有很高的沉浸感，并且底層的渲染技術(shù)比傳統(tǒng)的5.1混音要復(fù)雜很多，方位的渲染精度也會大大的提升，所以整體的渲染質(zhì)感有很大的提升。另外，近幾年在AR或者VR時(shí)代，非常強(qiáng)調(diào)交互的特性。比如VR頭顯設(shè)備的頭部跟蹤、旋轉(zhuǎn)，不僅要旋轉(zhuǎn)視頻，同時(shí)還需要旋轉(zhuǎn)聲場。這些都是傳統(tǒng)的5.1音頻(事先混音)很難實(shí)現(xiàn)的，而新的渲染技術(shù)，沉浸式音頻架構(gòu)是可以實(shí)現(xiàn)的。

　　至于其它的應(yīng)用方面，在看電視節(jié)目的時(shí)候，沉浸式音頻還可以靈活的根據(jù)不同的場合控制選擇不同的語言，選擇聲場中不同的方位進(jìn)行體驗(yàn)等。這些都是通過傳輸一個(gè)對象或者傳輸一個(gè)聲場的概念來實(shí)現(xiàn)的，而傳統(tǒng)的5.1或者立體聲傳輸是沒辦法實(shí)現(xiàn)的(無法實(shí)現(xiàn)單音軌分離)。

　　最后一點(diǎn)，制作與播放設(shè)備的分離。無論是5.1音箱、立體聲耳機(jī)或是其它設(shè)備，其中的混音都由渲染引擎中的軟件算法來實(shí)現(xiàn)。在制作的時(shí)候，混音師就會假想出一個(gè)球形的空間場景，也就不再完全依賴必須有一個(gè)5.1的混音廳才能將聲音混好，并且完成一次混音就可以在任何地方進(jìn)行播放。

　　1.3 Object Audio

　　DolbyAtmos的混音界面如圖右下角所示，是一個(gè)模擬電影院的方盒子，屏幕在前方。其中小球代表的是音頻對象，其在三維空間中會有一個(gè)運(yùn)動的軌跡?；煲魩煏鞫鷻C(jī)或者通過自己的混音環(huán)境來體驗(yàn)混音(音頻對象)的軌跡，但實(shí)際最終播放的時(shí)候有可能是一個(gè)5.1或者7.1.4的混音環(huán)境，這個(gè)是由渲染引擎來完成的。

　　對象音頻是現(xiàn)在比較流行，并且逐漸占據(jù)主流的。其源自于游戲，杜比作為一個(gè)商業(yè)公司將對象音頻徹底商業(yè)化推行到影院中，并進(jìn)行了許多商業(yè)算法上的創(chuàng)新，解決了很多復(fù)雜的場景問題。

　　對象音頻的一項(xiàng)核心組成部分就是元數(shù)據(jù)，我們實(shí)際上是通過位置、擴(kuò)展度或者運(yùn)動特性等來描述對象音頻，這些元數(shù)據(jù)都要傳輸?shù)戒秩径耍瑫r(shí)會進(jìn)行一些編碼壓縮操作。對象音頻的渲染方法一般是基于Panning，就是聲音如何通過幅值、相位的關(guān)系在多個(gè)喇叭或者耳機(jī)里產(chǎn)生一定的方位感。

　　1.4 Scene-Based Audio

　　Scene-Based Audio主要是以MPEG-H為代表(實(shí)際指MPEG-H中Scene-Based Audio部分所占比例較高)。Scene-Based Audio主要是用來描述場景的聲場，其核心的底層算法是HigherOrder Ambisonic(HOA)，因此一些新的沉浸式音頻的底層技術(shù)也不完全是新的，算法以及新的技術(shù)都是漸進(jìn)的，近幾年隨著帶寬的加大，隨著復(fù)雜度即算力的增強(qiáng)，以及AR、VR新的交互方式的產(chǎn)生促進(jìn)了技術(shù)的迅勐提升。Ambisonic也煥發(fā)了青春，VR成功將其帶到了大眾的面前。Ambisonic描述三維空間中的聲場，例如一階Ambisonic更多的是通過極坐標(biāo)。

　　一階Ambisonics：FOA

　　Ambisonics中存在一種階的概念，一階Ambisonics我們稱之為FOA(First-Order Ambisonics)，零階即沒有任何方向，也就是全向麥克風(fēng)來描述聲場。通常情況下，在Ambisonic中B格式為中間格式，聲場采集設(shè)備得到的原始信號為A格式。為了便于后續(xù)的運(yùn)算，無論麥克風(fēng)是什么樣子，通常都會轉(zhuǎn)化為通用格式即B格式。

　　如圖，X代表一個(gè)點(diǎn)元，通過Ambisonic的(W，X，Y，Z)表示，將其映射到一個(gè)聲場中是非常簡單的，主要是應(yīng)用了三角函數(shù)進(jìn)行一系列公式的計(jì)算。將其通用化后在高階時(shí)的表現(xiàn)即為球面諧波函數(shù)。

　　高階Ambisonics：HOA

　　描述聲場其實(shí)就是通過物理學(xué)的球面諧波函數(shù)來描述聲波在空間中的傳播，存在非常高的階數(shù)，如之前提到的零階、一階函數(shù)，甚至三階函數(shù)(右下角圖)。

　　2、聲場采集技術(shù)

　　2.1雙耳錄音

　　接下來介紹聲場采集技術(shù)，在音頻平臺中比較常見的有雙耳錄音，模仿人類大腦工作方式，模擬人左/右耳聽到的聲音。常見的使用工具為3Dio人工頭麥克風(fēng)。

　　上圖為VR時(shí)代，3Dio的升級(復(fù)雜)版本，適合于四個(gè)方向的Omni Binaural Microphone。Binaural錄音可以理解為聲場采集的上限，拋開人耳個(gè)性化的差異，達(dá)到的仿真效果要比HRTF等要好得多。這個(gè)錄音的輸出格式通常叫作Quad Binaural(QB)。

　　2.2 Ambisonic錄音

　　Ambisonic聲場錄音的優(yōu)勢是更加靈活，通過錄音設(shè)備得到的Ambisonic信號，可以直接做很多的后續(xù)處理。但是如果用Ambisonic信號轉(zhuǎn)成Binaural，效果在某一點(diǎn)上會遜色于Binaural信號。我們也曾做過一些比較，如果是用于VR 360度的聲場采集，與Omni Binaural錄音或者QB格式相比，Ambisonic錄音整體表現(xiàn)會比較平均，也就是最好方向比QB差，但也會比QB最差的方向要好一些。

　　有關(guān)聲場采集的算法以及麥克風(fēng)的設(shè)備，相對來說比較復(fù)雜。簡單地說，與其它設(shè)備的麥克風(fēng)陣列使用類似，都有同樣的需求：核心參數(shù)有信噪比、一致性、靈敏度、頻響;選擇MEMS麥克風(fēng)還是ECM麥克風(fēng)。早期一般會選擇ECM，但ECM的一致性稍差，所以比較貴的麥克風(fēng)出場時(shí)都會自帶匹配的校準(zhǔn)參數(shù)。目前新的麥克風(fēng)更多的是MEMS，一致性相對較好，可以達(dá)到，可以滿足很多需求。Ambisonic聲場采集得到的陣列信號，在剛性球體上，可以近似的用剛性球體球面諧波函數(shù)，把傳感器得到的信號轉(zhuǎn)成球面諧波函數(shù)的一些系數(shù)來表示，然后針對系數(shù)進(jìn)行后續(xù)的聲場的旋轉(zhuǎn)等操作。

　　3、沉浸式音頻的制作，存儲，傳輸

　　那么，有了沉浸式音頻聲場的采集，之后應(yīng)該如何進(jìn)行進(jìn)行制作?目前主流的工具Pro Tools、Reaper、Nuendo都是在影視行業(yè)比較常用的。主流的Pro Tools目前已經(jīng)全面支持Dolby Atmos，也可以支持一些高階的HOA;Reaper因?yàn)槠涔δ軓?qiáng)大，價(jià)格便宜，性價(jià)比高，被越來越多的音頻行業(yè)人士所喜愛。

　　以上提到的我們稱為音頻工作站，實(shí)際上大部分的工作還是通過插件來完成的，工作站完成主流的工作，靠插件來完成具體的如混響算法或者VR相關(guān)的一些工作。常見的插件主要有：Ambix、Facebook 360workstation、Dolby Atmos。

　　時(shí)代拓靈公司的插件，叫做Twirling Works，最初是為了VR制作來設(shè)計(jì)的。

　　多通道音頻壓縮一般是通過提取相位差、幅值差等一些Parametric Stereo，多通道通常選擇降維或者去相關(guān)的方式。

　　MPEG-H HOA編碼的核心是其中的HOA Decomposition部分，將有方向的，細(xì)節(jié)部分的信號取出來。將無方向的，環(huán)境聲音信號分離開。

　　HOA的優(yōu)勢是存在分層的編碼機(jī)制，如果在帶寬精度要求不高，帶寬不夠的時(shí)候，可以傳輸輸入較少的低階信號，如果帶寬足夠的話，則可以傳輸高階信號。

　　對象音頻的編碼主要是來自杜比的科學(xué)家的貢獻(xiàn)，首先是兼容5.1開發(fā)了Joint object coding(JOC)，可以將多個(gè)對象音頻下混到5.1聲道，通過傳統(tǒng)的5.1通道，生成的信號可以被5.1解碼器很好的兼容播放。并且如果同時(shí)支持對象音頻，就可以將其還原成為支持Dolby Atmos的沉浸式音頻。Spatial coding可以理解為是在JOC之上的前處理，面向更多的對象，可以通過一些準(zhǔn)則如：對象的重要性，能量等對多個(gè)對象做聚類。

　　4、渲染與播放

　　渲染與播放是非常關(guān)鍵的一個(gè)部分，渲染的方式通常叫做Panning，在三維空間中的渲染方式稱為Vector-based Amplitude Panning。

　　HOA的渲染相對更復(fù)雜一些，主要需要考慮的是如何將不同的HOA的信息給到不同的喇叭。

　　以上是優(yōu)化HOA decoding所使用的準(zhǔn)則之一Max rE。

　　以上是Decoding的幾種不同方式，傳統(tǒng)的主要Sampling or projection decoding和Mode-matchingdecoding兩種;此外，還有一些新的進(jìn)展，盡可能的使得渲染更均勻，最大程度保證音質(zhì)不受損。

　　5、基于IP的媒體實(shí)現(xiàn)音頻制作和體驗(yàn)轉(zhuǎn)換

　　隨著基于IP媒體的出現(xiàn)和對更好的娛樂體驗(yàn)的追求，音頻終于在廣播中呈現(xiàn)它應(yīng)有的突出作用。你甚至可以稱之為下一代音頻革命。行業(yè)對沉浸式音頻的接受將對現(xiàn)場直播產(chǎn)生巨大的影響——它已經(jīng)在改變著音樂、劇院、影院、演播室、娛樂音樂、電影制片廠和錄音行業(yè)。

　　沉浸式音頻成為現(xiàn)實(shí)

　　把在水平面上運(yùn)行的環(huán)繞聲擴(kuò)展到三維音頻體驗(yàn)(空間音頻)，沉浸式音頻賦予創(chuàng)作人員和工程師在傳達(dá)情感方面有更高自由度以及對耳聞目睹的內(nèi)容增加視角的更強(qiáng)大工具。目的是讓觀眾從任何方向(如果不是所有方向)都沉浸其中。

　　沉浸式音頻使用從空間中一個(gè)或多個(gè)點(diǎn)捕捉聲場中聲音的三維聲，創(chuàng)建能夠混合適應(yīng)不同類型的音響系統(tǒng)的“音頻對象”。由于能夠操控聲場或選擇特定的流，音頻對象打開由制作團(tuán)隊(duì)和聽眾自身創(chuàng)造獨(dú)特體驗(yàn)的大門。靈活性和選擇是關(guān)鍵。

　　通過沉浸式音頻，觀眾/聽眾可以選擇特定的音頻對象，將其包含在他們看到和聽到的廣播節(jié)目版本內(nèi)。就像一個(gè)附加的攝像機(jī)信號選項(xiàng)，如“進(jìn)球攝像機(jī)”或“裁判攝像機(jī)”，可以選擇不同的音頻信號，將聽眾帶入比賽或其它現(xiàn)場體驗(yàn)的不同部分。觀眾/聽眾可以改變他們的空間位置，從而獲得一個(gè)增加更大的現(xiàn)實(shí)性和如置身比賽中的感覺的不同視角。附加的聲音可能是來自配話筒的運(yùn)動員，或者一級方程式賽車車手和工作人員之間的通話，或者其它任何可以在制作過程中捕捉的音頻元素。

　　增加的聲源和數(shù)據(jù)增大復(fù)雜性

　　現(xiàn)在傳統(tǒng)的聲場是立體聲和環(huán)繞聲：5.1和7.1，具有左、中、右、左環(huán)繞、右環(huán)繞和重低音/低頻效果。沉浸式音頻引入多兩層——除了環(huán)繞聲基本層之外，還有一個(gè)高度層和頂層。

　　音頻對象具有描述如何在聲場內(nèi)還原音頻的相關(guān)元數(shù)據(jù)，這些數(shù)據(jù)描述了位置、擴(kuò)散、運(yùn)動特征及其它還音信息，給予對象根據(jù)位置或通過特定的揚(yáng)聲器進(jìn)行靈活定位必不可少的獨(dú)立性。

　　在沉浸式音頻實(shí)現(xiàn)中，廣播公司將發(fā)現(xiàn)需要應(yīng)對和管理更多的音頻流。隨著這種格式在制作工作流程中占有一席之地，考慮到它比傳統(tǒng)的立體聲和環(huán)繞格式可能更復(fù)雜，一個(gè)關(guān)鍵的挑戰(zhàn)將是擴(kuò)展服務(wù)。

　　與在標(biāo)準(zhǔn)的環(huán)繞聲工作流程中相比，沉浸式音頻的音頻源、音頻流和對象的數(shù)量更高，為保持工作流程的定時(shí)/同步完整性，可能需要更全面的PTP網(wǎng)絡(luò)規(guī)程?；A(chǔ)設(shè)施的主要考慮因素將是流量和帶寬管理、QoS處理和適當(dāng)?shù)腜TP網(wǎng)絡(luò)層次結(jié)構(gòu)處理。

　　從廣義上看，交換基礎(chǔ)設(shè)施方面的一個(gè)響應(yīng)是與自動播出、控制和調(diào)度平臺集成，因?yàn)樗鼈兺ㄟ^控制的方式反映了工作流程的意圖。更具體地說，處理基礎(chǔ)設(shè)施，廣播公司將需要使用可以顯示用于控制和配置的北向API的PTP可知的管理型IP交換機(jī)。

　　從網(wǎng)絡(luò)的角度來看，廣播公司可能會考慮根據(jù)類別，將音頻源和對象捆綁在一起，例如源位置、被“收集”的聲音類型和要捕獲的特定效果。音頻流作為可以四處移動的對象得到管理，當(dāng)?shù)讓踊A(chǔ)設(shè)施能夠以對人類大腦有意義的方式聚合數(shù)據(jù)時(shí)，這是有益的。

　　為了保持?jǐn)?shù)據(jù)流和數(shù)據(jù)的邏輯組織，與能夠靈活地管理此流量、憑借VLAN進(jìn)行分組并確保加入恰當(dāng)?shù)腝oS的交換基礎(chǔ)設(shè)施協(xié)同工作是很有用的。這在其它類型的通信(如內(nèi)部通話、元數(shù)據(jù))依賴于相同的基礎(chǔ)設(shè)施場合的工作流程中特別重要。

　　為支持沉浸式工作流程，Artel的AoIP、管理型和支持PTP的交換機(jī)提供這種水平的流量控制/管理和PTP功能。該公司Quarra系列交換機(jī)中的邊界時(shí)鐘功能提供對PTP網(wǎng)絡(luò)進(jìn)行分區(qū)的工具，以實(shí)現(xiàn)更好的性能。(音頻源智能分區(qū)可以防止PTP主時(shí)鐘過載狀態(tài))。特別是對于直播活動，廣播公司可能會考慮根據(jù)哪些交換機(jī)服務(wù)哪些源來部署他們的網(wǎng)絡(luò)。

　　先進(jìn)的IP交換機(jī)簡化采用

　　沉浸式音頻仍然處于相對早期的發(fā)展階段，還沒有標(biāo)準(zhǔn)配置獲業(yè)界采用。廣播公司已經(jīng)對5.1.2、5.1.4和7.1.4進(jìn)行了試驗(yàn)，5.1.4似乎提供了出色的3D體驗(yàn)，同時(shí)還使得基礎(chǔ)設(shè)施轉(zhuǎn)換可管理。

　　6、行業(yè)現(xiàn)狀與相關(guān)應(yīng)用

　　有關(guān)行業(yè)現(xiàn)狀，聲場采集部分一階Ambisonics(FOA，F(xiàn)irst-Order Ambisonics)已經(jīng)很常見了，并且同時(shí)也出現(xiàn)很多高階Ambisonics(HOA，Higher-Order Ambisonics)的采集。VR對于Ambisonic存在很強(qiáng)大的助推，Google和Facebook也在提供支持。得益于一些主流公司的支持，大家對此技術(shù)有了更多的認(rèn)知和重視。

　　專業(yè)領(lǐng)域則主要是Object Audio和HOA兩大趨勢，接下來隨著5G、AR、VR的發(fā)展沉浸式音頻技術(shù)的未來是非?？善诘摹?/p>

　　關(guān)于沉浸式音頻技術(shù)的相關(guān)應(yīng)用，毫無疑問影視娛樂，VR是最主要的應(yīng)用，例如各家影院的杜比全景聲可以說是非常常見的。此外，在我認(rèn)為會議其實(shí)是非很好的應(yīng)用點(diǎn)，大家都希望能有一個(gè)很好的沉浸式的會議體驗(yàn)。另外，還有聲場采集以及在其它聲學(xué)領(lǐng)域的應(yīng)用，例如聲學(xué)事件監(jiān)測，定位等也逐漸開始出現(xiàn)一些應(yīng)用。

　　來源：孫學(xué)京

免責(zé)聲明：本文來源于時(shí)代拓靈，本文僅代表作者個(gè)人觀點(diǎn)，本站不作任何保證和承諾，若有任何疑問，請與本文作者聯(lián)系或有侵權(quán)行為聯(lián)系本站刪除。(原創(chuàng)稿件未經(jīng)許可,不可轉(zhuǎn)載,轉(zhuǎn)載請注明來源)

男人的天堂香蕉在线视频,日韩精品欧美视频在线,丁香五月婷婷综合激情,精品亚洲另类自拍视频,国产精品中文字幕视频,一级毛片无码无卡无遮挡,女人体(1963)菠萝蜜视频

我的位置：

沉浸式音頻技術(shù)的制作、播放及發(fā)展與應(yīng)用

評論comment

升級數(shù)字化展廳，就選MAXHUB 智慧展廳解決方案

“千年縣衙”煥發(fā)新顏 | 雷曼康碩展創(chuàng)意屏助力慈城古縣衙數(shù)字化升級

飛利浦商顯制造業(yè)顯示解決方案 | 助推制造業(yè)數(shù)智升級，激活經(jīng)濟(jì)高質(zhì)量發(fā)展新引擎

青松光電 | 無限探索未來之光 - CX27系列COB LED顯示屏新品全解

我的位置：

share

相關(guān)閱讀related

評論comment