イヤースピーカー
研究、設計、進化

Valve Indexイヤースピーカーは、バーチャルリアリティにおける特定の体験用に最適化されており、一般的なコンシューマーヘッドホンのデザインとは違った興味深い方向へ進むことになりました。

初期段階の実験で、VRユーザーの不信の停止*を適切に達成するには、従来のゲームや映画の物語、環境、感情的な方法に依存するだけでなく、VRに特有のまったく新しいカテゴリーである生理学的な問題解決が必要であることが明らかになりました。『Budget Cuts』をプレイするためにヘッドセットを着用する時に私たちがVRに期待するのは、単に静的な画面として環境が表示されることではなく、自分の体が殺人ロボットでいっぱいのオフィスに運び込まれたように感じられることです。

研究とプレイテストを通じてわかったことは、音響的没入感を最大化するには、3Dトラッキングシステムやディスプレイパネルと同様に、オーディオコンポーネントの設計にも多くの要件が必要であるということでした。また、これらの要件を考慮して設計することは、スピーカーの位置、ドライバーの重量、ドライバーの振動板の形状、スピーカーのエンクロージャーの工業デザイン、さらには基本的な周波数応答特性などに影響するいくつかの興味深いトレードオフを受け入れることを意味しました。

*他の文脈で、具現化された不信の停止を「プレゼンス」と呼びましたが、その用語はオーディオの世界では他の意味を含んでいるため、この詳説の残りの記事では使用しません。

ハードウェアとソフトウェアの両方

説得力のあるオーディオ没入感は、ソフトウェアとハードウェアの両方のドメインに同時に依存することによってのみ達成できます。ハードウェア(オーディオデバイス)とソフトウェア(ゲーム、VR体験)の守備範囲を見極めるには、VR音声コンテンツの作成方法から、ゲームエンジンによる出力方法、そして最終的に耳に到達するまでの、VRオーディオパイプライン全体を総合的に考慮する必要がありました。

ソフトウェア側では、ゲームオーディオエンジニアと科学者は、90年代に最初のプレイヤー相対パニング体験(『Doom』、『Half-Life』、『Aureal3D』など)が登場して以来、説得力のある没入型サウンドコンテンツの作成に取り組んできました。そして、現行世代のVRのおかげで、空間オーディオテクノロジーが大幅に改善されました。SteamAudioなどのバイノーラルレンダリングと物理ベースのサウンドシミュレーションプラグインを使用することで、開発者は、通常のステレオヘッドホンを通して、より精度の高い音の位置、物理的に正確な仮想リバーブ、サウンドオクルージョン、伝播を作り出すことができます。現在のVRに最適なリスニングデバイスを検討する際に、私たちが活用したオーディオソフトウェアシミュレーションの知識と研究は次の通りです:

  • VRコンテンツは主にステレオで配信されます(左右に一つずつのオーディオチャンネル)。これらのチャンネルには、任意の時点においてプレイヤーが見ている場所に関連する、埋め込みバイノーラルおよびHRTFの音調を含めることができます。
  • 私たちの外耳、頭の形、顔の形状は、特定の音の特徴を追加します。それにより、脳は音源の相対的な位置(後ろ、上、下、左、右など)だけでなく、実際の音と想像した音を識別することができます。
  • 中高音域の音の品質は非常に重要です。
    • バイノーラルシミュレーションは、プレイヤーに対する音源の位置を伝えるために、音色の微妙な変化(1kH〜8kHz)に依存しています。リスニングデバイスによってくぐもった周波数の音色が追加されると、音の位置を特定するプレイヤーの能力が妨害されます。
    • 一般に人間は2kHZ~5kHzの範囲の音に非常に敏感です。仮想音の周波数が現実に予想されるものと一致しない場合、その音は「現実ではない」と認識される可能性が高くなります。これが特にあてはまるのは、誰かの声がスピーカーから放送されているのか、それとも実際に誰かがそばで話しているのかを区別することの容易さと比較した場合です。
  • 低周波音の品質も重要です。
    • 低周波のコンテンツは自然界ではあまり頻繁に発生しませんが、VRやエンターテインメントコンテンツには必ず登場します(音楽、轟音、爆発、銃撃、心音、衝突、魔法の呪文など)。サイズや規模の感覚を伝えるのに低音は不可欠です。低音はVRの視覚的没入感を高め、特定の感情のきっかけ(危険、畏怖、孤独、内面化など)を引き出します。それゆえ、リスニングデバイスが健全な量の低音域応答を維持することは重要でした。

なぜヘッドホンなのか?

従来のヘッドホンは、プレイヤーに相対的なステレオサウンドコンテンツを各耳に直接届けることに優れています。プレイヤーは仮想世界のあらゆる方向を見ることができ、サウンドシミュレーションプラグインを備えた3Dゲームエンジンは、必要なステレオ信号を出力し仮想音源の正しい位置を伝えます。これが、競技eスポーツプレイヤー(CS:GOなど)が前面スピーカーの代わりにヘッドホンを使用する理由です。ヘッドホンはより直接的な空間音情報を提供します。単純に、2つの耳(左/右)に対して、2つのイヤホン(左/右)と、2つの出力チャンネル(左/右)です。

しかし、一般的に従来のオーディオデバイスが音響的没入感を主要な目的に設計されることはほぼありません。イヤホン、オンイヤーヘッドホン、オーバーイヤーヘッドホンなどの個人用デバイスは、大音量スピーカーには適さない場所で音楽やエンターテインメントを聴くために最適化されており、電力要件が非常に低い場合がほとんどです(携帯電話、バッテリー式デバイスなど)。重点が置かれているのは、遮音、電力効率、ノイズキャンセリング、および誇張された周波数応答です。こうした最適化の多くは現在のルームスケールVRにおいてはあまり意味をなさないかもしれないと感じました。VRのリスニング環境は、軽いバックグラウンド音響がある屋内の部屋のような、微量の音漏れが問題にならない専用の空間が一般的だからです。そこには十分な電源があり、周波数応答はバイノーラルサウンドシミュレーションの仮定をサポートする必要があります。

目標を最適に達成するためには、ヘッドホンとイヤホンは、耳に触れるか耳を囲む必要があります。これは場合によっては、次の方法で音響的没入感に反して機能することがわかりました:

  • 外耳道に直接音を届けることは、耳と頭が実際の音波と相互作用することにより生じる自然な聴取過程を迂回します。リスナーは、耳、頭、および個人的形状によって作成される音の特徴を逃します。これにより、高度に空間的かつ物理的にシミュレートされているオーディオコンテンツが、あたかも頭の中から聞こえる音や、想像した音のように聞こえてしまいます。最終的にはソフトウェアシミュレーションがこれを考慮するだろうと予測しています。
  • 耳への圧力は時間が経つと痛みや不快感を与え、VRの実在感から人々を引き戻します。
  • 一部のプレイテスターは、ヘッドホンが耳に触れているという状態そのものが、聞こえてくるどんな音も現実のものではないことを示す兆候になると報告しました。
  • オーバーイヤーヘッドホンで耳を塞ぐと熱がこもり、VRヘッドセットがユーザーがいる現実の世界よりも熱く感じられ、プレゼンスが低下します。
  • 一部のヘッドホンの音質は、バイノーラルシミュレーションの微妙な周波数の音色を妨げる場合があります。例えば、中高音域が増幅された、またはくぐもったヘッドホンでは、HRTFフィルターの繊細さを妨げる可能性が高く、その結果として、ゲームやVRで音の方向感覚が悪化します。

なぜスピーカーではないのか?

一般的なステレオまたはサラウンドサウンドのセットアップに関しては、スピーカービームフォーミングスピーカーについても検討しました。スピーカーは、ヘッドホンに関連する多くの快適さの問題を回避し、頭の外側として容易に知覚できる音を発しますが、採用にはいくつかの障害がありました:

  • 既存のステレオスピーカーの構成では、正面向きが想定されているため、ステージ上のバンド演奏を聴いたり、ソファでテレビを見たりするような、まるで聴衆の中にいるかのように音が再生されます。これは、音楽や映画では問題ありませんが、VRおよびステレオゲームコンテンツは、左/右チャンネルの音がリスナーの頭の両側にすぐに到着すると仮定して出力されます。
  • 一般的な5.1および7.1のサラウンドサウンドシステムは、再生を水平フィールドに制限しますが、VRやゲームのサウンドコンテンツは仮想的にリスナーの周囲のどこにでも配置できます。
  • スピーカーシステムは、ユーザーが正しくセットアップするのに時間とスペースを要することがあり、VRセットアップにさらなる手間が生じます。
  • スピーカーは、正確な空間再生のために、プレイヤーが小さな「スイートスポット」内に留まることを必要とします。VRでは、人が広い空間を移動する必要がある場合があります。
  • スピーカーは、実際の部屋の音響の影響を受ける可能性があり、仮想世界の望ましい音響と競合する可能性があります。
  • プレイヤーの耳に非常に近い可能性がある仮想音源の位置に反して、スピーカーの音は非常に遠くに感じられる可能性があります。

アイデア

上記のすべてのトレードオフを検討した結果、VRの最適なソリューションとして、超近距離、フルレンジ、オフイヤー(耳に接触しない)ヘッドホンが浮かび上がって来ました。プレイヤーに相対的なステレオヘッドホンを模倣しながら、現在のVRコンテンツの出力形式もサポートできるぐらいは耳に近く、耳と頭が音に独自の音色を刻み込み、快適さと圧力の問題にも対処できるぐらいは耳から離れていること。これに、2つの内向きのハイファイスピーカーの間に横たわり、完全に音に没頭するという幼年期の記憶からのインスピレーションが組み合わされた結果、最初のプロトタイプが作成されました。

オフイヤースピーカーの最初のプロトタイプ

進化

最初のプロトタイプは、スケートボードのヘルメットの側面に2つの小さなフルレンジのデスクトップスピーカードライバーをテープで留めたもので、ヘルメットの外側には古いViveが巻き付けられていました。スピーカーの電源は、HTC Viveのヘッドホンジャックを介したオーディオ出力とUSBによって供給されていました。この粗雑なプロトタイプは、自分の耳と頭で自然に音を解釈できるようにした時に、音の没入感と外在化の増加に関して驚くほど良い結果を示しました。没入感を定量的に測定するのは難しいため、この段階では、同僚とプレイテスターにVR環境でこのプロトタイプとKOSS Porta Proオンイヤーヘッドホンを使用してもらい、その際の音の違いに関するフィードバックが頼りでした。スピーカーに対する好意的な反応は、私たちが自信を持ってこのデザインで開発を進めるのに十分なものでした。しかし、いくつかの問題も浮上しました:

  • 非常に限られた低音レスポンス。
  • ヘルメットの着用方法の違いにより、スピーカーの位置が微妙に変化する。VR内を移動すると、音量、周波数応答、音のバランスが大幅に変化する。
  • 重量とサイズ。スピーカーが重すぎました(各70g)。これは、軽くて快適なヘッドセットを作るという製品の大きな目標に反しており、 おそらく初期段階での最大の懸念事項でした。
  • 音漏れ。
ヘッドホンドライバーの実験

重量の問題に対処するため、スピーカードライバーの代わりにヘッドホンドライバーを使用して調査しました。より軽量で、より電力効率が良い一方で、耳との間を空気で隔てられると、十分な音量を提供できませんでした。このことは既にわかっていましたが、音の没入感と、耳からの距離と、周波数応答および音量のトレードオフ関係を聞けたことは興味深いことでした。

平面磁気オフイヤーヘッドフォンのコンセプト

私たちが知りたかったことは、耳の外側での音量と周波数応答の要件を満たすために必要なヘッドホンドライバーの大きさでした。その答えを見つけるために、非接触型の平面磁気ヘッドホンを開発したAudezeにも相談しました。その結果は素晴らしいものでしたが、重量、サイズ、費用がValve Indexの生産目標にとって現実的ではありませんでした。

最初のスピーカーベースの「ハミングバード」

スピーカードライバーをベースに使用することに戻り設計を進めました。この段階での初期のオーディオ研究開発の利点のひとつは、Valve Indexヘッドセットシステムの他の部分とは独立して開発ができることでした。機械エンジニアの助けを借りて、スタンドアロンで耳に接触しないヘッドホンのフォームファクタを作成しました。この新しいモデルでは、低音域応答、チューニング、耳に対する向き、耳からの距離、およびA/Bテストスピーカードライバーの評価を迅速に繰り返すことができました。このプロトタイプは、3Dプリントされた最初の耳スピーカーヘッドホンで、社内では「ハミングバード」と呼ばれています。

小さなフルレンジの伝統的なピストンスピーカーを搭載したハミングバード

これらのカラフルなハミングバードは、さまざまな種類の小型フルレンジスピーカードライバーを評価することを目的に作成されました。この時点まで、私たちはコンシューマー向けスピーカーおよびヘッドホンシステム全体を転用していました。既製の部品を購入して評価するには、アンプや、オーディオチップ、DSP(デジタル信号処理)、マイクなどのオーディオサブシステムの基礎の構築から始める必要がありました。それと並行して、耳からの最適な距離、回転、重量、スピーカーの寸法、および周波数応答などの出荷目標値を少しずつ検討していきました。

TectonicのBMRドライバーを使用したハミングバードの最初のペア

ドライバーの評価段階でBMR(バランスモードラジエーター)スピーカーに出会い、すぐにいくつかの利点に気付きました:スピーカーの位置のずれによる音の変化が少なく、重量も目標の範囲内であり、(バイノーラルシミュレーションで重要とされる)中高音域での周波数応答が良く、従来のスピーカードライバーよりもはるかに薄型でした。Tectonicと協力して、オフイヤースピーカーとして使用するカスタムドライバーの設計を開始しました。

内部では、耳のスピーカーによってどれだけの音が周囲の環境に漏れるのか、そしてどのくらいの音が外から入ってくるのかという懸念が高まっていました。ユーザーへの影響を把握するために、20個以上のハミングバードを作成し、同僚たちに自宅でテストできるように貸し出しました。ハミングバード(Chet)を返却したがる人は一人もいませんでした。これは、圧倒的に肯定的なプレイテストのフィードバックと共に良い兆候でした。プレイテスターからのコメントには、耳に何も触れないことの利点と音の没入感の向上によって、外部からの音の流入や内部の音漏れに起因する問題を相殺しているとありました。こうした懸念を念頭に置きつつ、このデザインで進めることにしました。

Mr. HATS

製品化

プレイテストも順調で、品質、コスト、デザイン目標の条件にも合ったイヤースピーカーのサブシステムが完成したところで、イヤースピーカーのデザインをValve Indexヘッドセットに統合するプロセスを開始しました。ここで重要なことは、ヘッドセットの一部としてのオーディオサブシステムの音響パフォーマンスを測定することでした。正確に測定することで、漸進的な改善を忠実に捉え、オーディオサブシステムの問題を特定することにつながりました。初期の段階では、「Mr. HATS」と呼ばれるダミーの頭部模型を使用して、イヤースピーカーの周波数応答を測定しました。顔の青いテープは、模型上でのHMDの正確な位置を示し、これにより初期の測定値の一貫性を保てるようにしました。

無響室でのIndex BMRドライバーの周波数応答グラフ

最高の音質を実現するために、周波数応答と低音域の拡張を日々測定し改善に努めました。Valveで私たちがEQチューニングと音響心理学ベースのようなアルゴリズムを使用したDSPを介して低音域の改善に取り組んでいた一方で、Tectonicはスピーカーのドライバー自体の最適化による機械的な低音域の改善に取り組んでいました。これらの努力の組み合わせにより、音質と低音応答の目標を達成し超えることができました。

ValveのBMRドライバーの応答の極座標応答グラフと音圧レベルマップは、スピーカードライバーを広範囲に配置した際の音質の一貫性を示します。

BMRドライバーを使用することで、スピーカーが頭の側面で多少ずれていても、音色を調整することなく一貫した音質を確保できます。これは、BMRが持つ独特の音の拡散性によるものです。低周波では従来のスピーカーのように動作します。電気信号が入ると、信号の形状を追跡して、振動板全体(スピーカーの前部)が前後に動きます。しかし、BMRの実力は高い周波数で発揮されます。振動版を通過する曲げ波の波長が振動版の大きさに近い場合、従来のドライバーは「分割振動」モードに入り、振動版が曲がって波打ち、周波数応答の振幅が大きくなります。これは、響きが悪くなるだけでなく、配置にも非常に敏感です。BMRは、振動版の本来の機能を活用するように設計されており、最適化された材料選択、質量負荷、広範な設計シミュレーションを通じて、様々な領域からの振動バランスを調整します。基本的に、BMRスピーカーは耳に対して完璧な位置になくても、常に完全な音響情報を耳に届けることができます。

機械的に音漏れを削減

さらに、Tectonicは音漏れを機械的に最小化することができました。Valve Indexスピーカーのドライブユニットは後面開放型なため、前面からの圧力は背面からの圧力と相互に作用することができ、これらは定義上互いに位相がずれています。しかし、ドライブユニット自体、その直径全体を通じてある程度の「自己バッフル」機能を提供します。基本的に、どのスピーカードライブユニットでも、外径が前面からの圧力と背面からの圧力の干渉防止に役立ちますが、これは空気中の音波の波長がドライバーの直径の自己バッフルより小さい場合にのみ役立ちます。波長がドライバーの直径より大きくなると、前面からの圧力が背面からの圧力と直接相互作用し、強い打ち消しが発生します。ドライブユニット全体の直径は約5cmです。これは、約3kHzを超えると音が打ち消されないことを意味しますが、周知のとおり、この周波数を超えるとオーディオコンテンツは次第に少なくなります。ほとんどのオーディオコンテンツが存在する3kHz未満が、音の打ち消し効果の強い帯域であるため、近くにいる人への騒音防止になります。 「ヘッドセットを装着したリスナーの耳は、ドライブユニット(ニアフィールド)に非常に近いため、相対的に前面からの圧力の耳への距離が背面からよりも大幅に近くなり、打ち消しは知覚されません。」ティム・ウィットウェル、CTO Tectonic。

マイク

ストリーマーやマルチプレイヤー体験をサポートするために、ヘッドセットに高品質のマイクを搭載するという目標は簡単に定義できました。しかし、オフイヤースピーカーの設計上、マイクのパフォーマンスが難しい課題になることは予想できました。驚いたことに、この予想は外れました。イヤースピーカー特有の機能により、マイク信号に大量のノイズキャンセリングDSPを使用せずにすみました。その結果、48kHzという非常に高いストリーミングサンプリングレートを実現できました。高品質のマイク入力の構築に役立った機能のリストがこちらです:

  • デュアルマイクアレイは、指向性応答を狭め、信号(ユーザーの口)に焦点を合わせ、他の外来ノイズを除去します。 双方向マイクアレイは、ユーザーの口からの音を拾うことに集中し、外部音を排除します。
  • BMRドライバーの「自己バッフル」は、従来のスピーカーよりも外部ノイズ汚染を大幅に削減します。
  • スピーカーとマイクの音響は、非線形音響フィードバックパスを大幅に削減するように設計されました。プレイヤー自身の頭は、BMRスピーカーからの初期音響エネルギーの多くを吸収します。
  • 高SNRマイクとオーディオパス。
  • 良質のマイクと音響シール。
  • 大音量による途切れを防止するための、オーディオ入力の動的圧縮。

最終的な見解

これらのすべての研究、反復作業、フィードバックにより、Valve Indexイヤースピーカーのデザインは、現時点でのルームスケールVRでのオーディオ再生用に設計された機能およびトレードオフの最適なバランスに近いものになったと思います。オーディオ体験の結果には満足していますが、さらに学ぶべき点や、改善が必要な点も多く残されています。

オーディオに情熱があり、この種の問題解決にご協力いただける場合は、オーディオ関連採用情報をご覧いただくか、またはjobs@valvesoftware.comまでメールでご連絡ください。

Valve Index

Steamストアから単品で、または一式揃ったキットとして購入できます。