耳機 - 研究、設計、進化

Valve Index 的耳機是為了最佳化虛擬實境特有的體驗而設計,因此與一般消費者使用的傳統耳機在設計上有許多值得注意的差異。

我們進行 VR 實驗的初期便發現,要讓一位 VR 使用者能恰到好處地懸置不信*,不僅需要依賴傳統遊戲與電影中的敘事、場景設置和情感激發的技巧,也需要找到 VR 獨有、全新的一套解決生理性問題的方法。當我們戴上頭戴顯示器遊玩《Budget Cuts》時,會期待 VR 產生彷彿自己的身體被傳送到一個滿是兇殘機器人的辦公室中的效果,而不只是透過一個靜止的螢幕顯示此種場景。

研究和遊戲測試結果讓我們了解到,在音訊元件的設計上若要達到最高度的聲音沉浸感,其需求和執行 3D 定位系統或顯示面板的需求是相同的。我們也體認到,若要依照這些需求來設計,就必須接受某些有趣的妥協,會影響到耳機的位置、驅動單元的重量、驅動單元振膜的形狀、音箱的工業設計,甚至是最基本的頻率響應特徵。

*我們在其它情況下曾稱這種生理性的懸置不信為「存在感」。但因為「懸置不信」一詞用於音訊界時有其它的的涵義,在這篇深入探索中我們將不會再使用此一詞彙。

軟硬體兼顧

唯有同時仰賴軟、硬體兩方面才能達到有說服力的聽覺沉浸感。要明確劃分硬體(音訊設備)和軟體(遊戲和 VR 體驗)各別扮演的角色,就必須全面性地考量 VR 音訊整體的傳輸途徑–—從如何製造 VR 中的聲音、遊戲引擎如何輸出音訊,直到聲音如何傳遞到人的耳朵的整個過程。

就軟體而言,自從第一個以玩家為主體進行跟拍的體驗於 90 年代出現後(《Doom》、《Half-life》、《Aureal3D》 等等),遊戲音訊工程師和科學研究人員就致力於創造逼真又有沉浸感的聲音。此後,多虧這一世代的 VR,我們目睹了空間音訊技術上的長足進步。像是 SteamAudio 之類的雙耳輸出以及以物理為基礎的聲音模擬插件,使開發者能透過一般的立體聲耳機,達到更佳的聲音定位精準度、物理性正確的虛擬殘響、聲音遮蔽,以及聲音傳播。我們汲取以下音訊軟體模擬方面的知識和研究成果,作為考量何為就目前 VR 技術而言,最佳的聆聽裝置的依據:

  • VR 的音訊大多以立體聲傳送,左右各一音訊頻道。這兩個頻道含有嵌入式雙耳及頭部相關傳輸函數(HRTF)調性音染,依玩家在任何時間目視的方向而變動。
  • 我們的外耳、頭型以及面部幾何構造都會為腦部提供特定的調性記號,可幫助頭腦辨識真實與假想的聲音,也能辨識聲源與我們之間的相對位置(後方、上方、下方、左邊、右邊等等)。
  • 中高頻聲音保真度非常重要。
    • 雙耳模擬倚賴調性音染的微幅波動(1 kH - 8 kHz)來傳達聲源相對於玩家的位置。如果某個聆聽裝置加入自己模糊的頻率音染,將會干擾玩家判定聲音位置的能力。
    • 一般來說,人類對 2 kHZ - 5kHz 之間的聲音非常敏感。如果虛擬聲音的頻率不符合在現實世界中預期聽到的聲音,那我們很可能會認為這聲音「不真實」。尤其是當你想想,要區別同一個人透過廣播傳出的聲音以及在你身旁說話的聲音有多麼容易,就很容易理解這一點了。
  • 低頻聲音保真度很重要。
    • 雖然低頻率的聲音在自然狀況下不常出現,它卻絕對是 VR 和娛樂產品中的固定內容(音樂、隱約的隆隆聲、爆炸聲、槍聲、心跳聲、撞擊聲、施放魔法聲等等)。低音在製造大小與規模感這方面至關重要。它能提升 VR 在視覺上的沉浸感,並能引發某些情緒反應——危險、敬畏、孤獨、內化等等。因此,聆聽裝置保有合理程度的低頻響應是很重要的。

為何不使用傳統耳機?

就傳送直接、立體,且隨玩家移動的聲音到兩隻耳朵來說,傳統耳機的效果極佳。在虛擬世界中,玩家能直視任何方向,內含聲音模擬插件的 3D 遊戲引擎則輸出必要的立體聲訊號,傳達虛擬聲源的正確位置。這就是為什麼競賽型電子競技的玩家(例如《Counter Strike: Global Offensive》)使用傳統耳機而非前置型揚聲器——它能提供更直接的空間聲音資訊。兩個輸出聲道(左 / 右)連接到左右雙耳的兩個耳機,非常直接。

不過,一般來說,鮮少傳統音訊設備的設計是以聲音沉浸感為主要目的。耳塞式、貼耳式,以及覆耳式耳機等個人用裝置,其最佳化的目的是為了在不適合使用喇叭的場所聆聽音樂或其它娛樂內容,且耗電量通常極低(比如手機和使用電池的裝置)。著重的功能通常為隔離聲音、有效使用能源、降低噪音,以及大範圍的頻率響應。我們認為以上許多最佳化的作法並不適合目前房間規模的 VR,在此情況下的一般聆聽環境是個固定大小的空間(例如有些微背景聲響的室內空間),少許的聲音漏失並無傷大雅。在此我們有充分的電源,也預期頻率響應需支援雙耳聲音模擬。

頭戴式和耳塞式耳機需要貼住或是覆蓋耳朵才能達到最佳的效果。我們發現此種配戴方式在以下幾方面與聽覺沉浸感相矛盾:

  • 把聲音直接傳入耳道,會避開頭耳和真實聲波之間互動的自然聆聽過程。如此聽者會錯失耳朵、頭部,以及人體的幾何條件互動之下所產生的調性聲音記號。這會使收聽到的聲音如同假想的、或像是從自己頭部發出的一樣,即便接收的聲音是由高度的空間與物理模擬所產生。我們預測軟體模擬最終會將此納入考量。
  • 聆聽一段時間後,耳壓會導致痛感與不適,讓人感覺脫離了 VR 的世界。
  • 根據某些遊戲測試人員的回報,光是耳機觸碰耳朵的動作,就預告了即將聽到的聲音會不真實。
  • 以覆耳式耳機封住耳朵也會鎖住熱氣——讓使用者感覺 VR 頭戴顯示器的溫度比其實際的溫度高,因而降低 VR 體驗的真實感。
  • 有些耳機的調性音質會干擾雙耳模擬之下的細微頻率音染。比方說,中高頻率被誇大或模糊的耳機,最有可能干擾頭部相關傳輸函數(HRTF)篩選器精細的部分,導致在遊戲和 VR 體驗中感受不到方向性的聲音。

為何不使用喇叭?

我們也曾考慮過在傳統的立體聲或環繞音效的配置下,使用一般消費者用的喇叭以及波束成型揚聲器 。喇叭能避免傳統耳機可能帶來的舒適度問題,傳送出的聲音也很容易聽起來像源自頭部以外,但在實際運用上的確會有一些困難:

  • 現存立體聲喇叭假設其揚聲器面向前方,因此聲音是向坐在觀眾席的聽者播放,像是欣賞樂團演出,或坐在沙發上看電視。這種配置在聽音樂或在螢幕上觀看電影時沒有問題,但 VR 和立體聲遊戲內容的輸出,是假設音訊經由左右兩頻道立即傳輸到聽者頭部兩側。
  • 一般 5.1 和 7.1 聲道環繞音效系統會將播出的聲音限制於一個水平的場域,然而 VR 與遊戲的音效會出現在聽者周圍各處。
  • 使用者需要時間與空間才能正確地設定喇叭系統,這會在 VR 設定的過程中造成不便。
  • 喇叭必須將玩家限制於一個小型的「有效區域」,才能播放有準確空間感的聲音。有時 VR 需要玩家在大範圍的空間四處移動。
  • 喇叭可能會受真實房間的傳聲效果影響,也可能與虛擬世界中期望會有的傳聲效果有所衝突。
  • 喇叭會使聲音聽起來感覺很遠,不符合虛擬聲源的位置,有可能其實很靠近玩家的耳朵。

構想

我們在檢視上述各種妥協時,發現最適合 VR 的方案便是一副超近場、全頻、離耳(不接觸耳朵的)的耳機。 它與耳朵的距離夠近、可模擬直接將聲音傳輸給玩家的立體聲耳機,也能支援目前 VR 內容的輸出格式。不過,它與耳朵仍有一定的距離,能讓耳朵與頭部在聲音上留下自己的調性音染,也能同時解決舒適感和壓力等問題。有了這樣的理解,加上兒時的記憶——曾躺在兩個面對面的高傳真揚聲器中間,完全沉浸於音樂中的體驗——啟發了我們製作的第一個原型。

我們的第一個離耳式耳機原型

進化

第一個原型是在一頂滑板帽的兩側貼上兩個小型全頻的桌上型揚聲器驅動單元,然後把一台舊的 Vive 繫在滑板帽上。揚聲器的電源以 USB 提供,並從 HTC Vive 的耳機插孔輸出音訊。這個粗糙的原型出人意料地成功,當我們讓耳朵和頭部自然地詮釋聲音時,能提升聲音的沉浸感與外部化。沉浸感的程度很難量化,因此在這個階段,我們大多依賴同事和遊戲測試人員來提供質性的意見回饋,描述他們在 VR 的環境中,聆聽此原型和一副 KOSS Porta Pro 貼耳式耳機的體驗有何差別。測試後有充分的反應指出揚聲器的效果較佳,我們也因此安心地繼續開發此項設計。但接著出現了幾個問題:

  • 非常有限的低音響應。
  • 若戴上頭盔的方式不同而約略改變揚聲器的位置,或是在 VR 的環境中移動,都會造成音量、頻率響應以及聲音平衡相當程度的波動。
  • 重量和大小。這些揚聲器太重了(各 70 克)——這與製作又輕又舒適的頭戴顯示器的最終生產目標相違背。這可能是開發初期最大的擔憂。
  • 聲音漏失。
用不同的耳機驅動單元做實驗

為解決重量的問題,我們嘗試使用耳機驅動單元,而非揚聲器驅動單元。雖然耳機驅動單元較輕也較節省能源,在與耳朵有些距離並懸置時,卻無法傳送足夠的音量。即使我們已知道會有此問題,我們仍然很高興能實際聆聽聲音沉浸感、離耳距離,以及頻率響應與音量之間的此起彼落。

場極式平面離耳耳機概念

我們想知道耳機驅動單元的體積要多大,才能在不接觸耳朵的情況下符合我們對音量和頻率響應的需求。與 Audeze 討論後,他們便幫我們開發了一副場極式離耳耳機進行測試。雖然測試的效果極佳,但耳機的重量、大小和成本卻不符合 Valve Index 的生產目標。

第一副以揚聲器為基礎的「蜂鳥」

因此我們回頭以揚聲器驅動單元最為繼續發展的基礎。音效研發的早期階段有一個好處,就是可以與 Valve Index 頭戴顯示器系統的其它部分分開研發。在一位機械工程師的協助之下,我們製造了獨立並離耳的耳機外觀造型。在這個新的情境下,我們得以快速地測試並修正低音響應、調音、相對於耳朵的方向、與耳朵的距離,並且對揚聲器驅動單元進行 A/B 測試的評鑑。此原型便是第一副 3D 列印出來的耳機。我們私下稱它為「蜂鳥」。

使用小型全頻傳統活塞式揚聲器的蜂鳥

我們製作這些五顏六色的蜂鳥,目的在於評量不同種類的小型全頻耳機驅動單元。直到這個階段,我們都還在改裝並重新利用整副一般消費者始用的揚聲器和耳機系統。為了評量從架上買來的耳機零件,我們就必須建構音效系統最基礎的部分:擴音器、音訊晶片、數位信號處理(DSP),以及麥克風。於此同時,我們也越來越接近決定最佳離耳距離、旋轉、重量、揚聲器尺寸,以及頻率響應等產品發行目標。

第一副由 Tectonic 製作、含平衡模式輻射器 (BMR)驅動單元的蜂鳥

我們在評量驅動單元的階段接觸到平衡模式輻射器 BMR(Balance Mode Radiator)揚聲器,並立即注意到幾個益處:它能減低由於揚聲器放置位置不佳而導致的音染,非常接近我們鎖定的目標重量,在中高頻的頻率響應很好(對雙耳模擬來說很重要),而且比傳統揚聲器驅動單元要薄多了。我們開始與 Tectonic 合作,設計專為離耳式耳機使用的驅動單元。

此時,團隊內部卻越來越擔心耳機會漏失多少聲音到環境中,或是會容許多少外部聲音干擾。為了了解這對消費者影響有多大,我們製作了 20 多副蜂鳥,讓同事們帶回家測試。結果沒有人願意把蜂鳥(名叫 Chet)還給我們。這是個好現象,而且遊戲測試的回饋也都非常正面。遊戲測試人員指出,裝置不觸碰耳朵加上深度的聲音沉浸感,這兩個益處超越了外部聲音干擾或是內部聲音外流可能造成的問題。因此我們決定在了解這些問題的情況下,繼續開發這個設計。

帽子先生

成品

現在我們有了一個基本的耳機系統,遊戲測試的結果良好,而且也符合我們在保真度、成本,以及設計等三方面的目標。這樣就可以開始將耳機的設計與 Valve Index 頭戴顯示器整合。與頭戴顯示器結合後,評量我們製作的音訊系統在傳聲上的表現就很重要。精確的測量結果能讓我們掌握漸進的改良,也能找出音訊系統中的問題。一開始我們使用人偶頭部模特兒「帽子先生」來測量我們耳機的頻率響應。人偶臉上的藍色膠帶標出配戴頭戴顯示器時的確切位置,如此才能維持早期測量的一致性。

Index 平衡模式輻射器(BMR)驅動單元在無響室中的頻率響應圖表

為了達到最高的聲音品質,我們每天都測量並修飾頻率響應和低音擴展。我們 Valve 這邊致力透過數位信號處理(DSP)來改善低音擴展,運用的是均衡調音以及類似心理聲學低音的演算法,Tectonic 則就機械的層面改善低音,最佳化揚聲器的驅動單元本身。結合這些努力之後,我們便能達到甚至超越為聲音品質和低音響應所設定的目標。

Valve 的平衡模式輻射器(BMR)驅動單元的頻率響應曲線和音壓強度圖都顯示,不論揚聲器驅動單元的位置如何調整,音質都能保持一致。

因為使用了平衡模式輻射器(BMR)驅動單元,即便揚聲器配戴在頭部兩側的位置有些微的誤差,我們都能確保聲音品質一致、毫無音染。這與平衡模式輻射器(BMR)特有的擴散聲音的方式有關。在低頻率時,平衡模式輻射器(BMR)與傳統揚聲器幾乎沒有差別。電訊傳送進來時,整個振膜(揚聲器的正面)會以前後移動的方式,來追蹤訊號的形狀。不過,頻率高時發生的事才真正神奇。當聲音的波長與振膜的大小相當時,傳統驅動單元便會開始進入「破音」模式,造成振膜彎曲並如波浪般起伏,導致頻率響應出現強烈的高低峰值,這不但聽起來不悅耳,更對擺設位置非常敏感。平衡模式輻射器(BMR)在設計振膜時,謹慎地選擇材料、質量負荷,以及廣泛的設計模擬。以充分利用振膜自然的動作、平衡來自不同區域的震動。總之,即便揚聲器並未完全對準您的耳朵,都保證您永遠能接收到完整的聲音資訊。

從機械層面降低聲音漏失

Additionally, Tectonic was also able to mechanically minimize sound leakage. Because the Valve Index speaker drive unit is open backed, the pressure from the front side can interact with the pressure from the rear side, and these are out of phase with each other by definition. However, the drive unit itself provides a degree of “self-baffling” via its total diameter. Essentially, for any speaker drive unit, its outer diameter helps to prevent the pressure from the front side meeting the pressure from the rear side. Though this only helps when the wavelength of the sound waves in the air is smaller than the self-baffle of the driver’s diameter. When the wavelength becomes larger than the driver’s diameter, the pressure from the front side will directly interact with the pressure from the rear side, and strong cancellation happens. The overall diameter of the drive unit is about 5cm. This means that above about 3kHz there is no cancellation but, as we know, there is increasingly less audio content above this frequency. Most audio content exists below 3kHz, and this is where the cancellation is strong, preventing sound from bothering people nearby. “The listener wearing the headset has their ears so close to the drive unit (near-field) that the cancellation is not perceived as the pressure from the front side is RELATIVELY so much closer to the ear than the rear side.” Tim Whitwell, CTO Tectonic.

The Microphone

Our goal to have high quality microphones on the headset to support streamers and multiplayer experiences was easy to define. However, due to the off-ear speaker design, we expected the microphone performance to be a difficult challenge. To our surprise, this turned out to not be the case. Due to several of the ear speaker’s unique features, we were able to avoid using a significant amount of noise cancelling DSP on the microphone signal, which in turn allowed us to keep the sampling rate of the microphone stream very high at 48kHz. This is a list of features that helped build high quality microphone input:

  • Dual microphone array to narrow directional response and focus on the signal (user’s mouth) and eliminate other extraneous noise. The dual-directional microphone array focuses the pickup on the user’s mouth and excludes any external sound.
  • The “self-baffling” of the BMR drivers reduces external noise pollution much more than traditional speakers.
  • Speaker and microphone acoustics were designed to greatly reduce any non-linear acoustic feedback paths. The player’s own head absorbs much of the initial sound energy from the BMR speakers.
  • High SNR microphones and audio paths.
  • Good quality microphones and acoustic seals.
  • Dynamic compression of incoming audio to avoid clipping loud voices.

Final Thoughts

All this research, iteration and feedback leads us to believe that the Valve Index ear speaker design is as close to an optimal balance of tradeoffs and features specifically designed for audio playback in room-scale VR as currently possible. We’re really pleased with how the audio experience played out and, that said, there is still much more to learn and more improvements we can make.

If you have a passion for audio and would like to work with us on solving these kinds of problems, please explore the various audio related domains or email jobs@valvesoftware.com

Valve Index®

可於 Steam 商店購買單一硬體或全套產品。