Głośniki przyuszne – badania, projekt i rozwój
Głośniki uszne Valve Index zostały zoptymalizowane w celu osiągnięcia konkretnych empirycznych celów wirtualnej rzeczywistości i spowodowało to, że ich projekt odbiegł na wiele ciekawych sposobów od typowych słuchawek konsumenckich.
Podczas wczesnej fazy eksperymentów z VR stało się jasne, że udzielenie użytkownikowi VR pomocy w osiągnięciu odpowiedniego efektu zawieszenia niewiary* wymagało nie tylko polegania na narracyjnych, środowiskowych i emocjonalnych metodach tradycyjnych gier i filmów, ale również na całkowicie nowej kategorii rozwiązywania problemów fizjologicznych, które są unikalne dla VR. Gdy wkładamy gogle, by zagrać w Budget Cuts, to oczekujemy od VR, że poczujemy, że nasze ciało jest przenoszone do biura pełnego morderczych robotów zamiast po prostu pokazywać nam ich środowisko przez statyczny ekran.
Dzięki naszym badaniom i testom zrozumieliśmy, że osiągnięcie maksymalnej immersji dźwiękowej wymusiło tyle wymagań w projekcie komponentów audio, ile miało miejsce w systemie śledzenia 3D lub paneli wyświetlaczy. Dowiedzieliśmy się również, że projektowanie wraz z tymi wymaganiami oznaczało zaakceptowanie kilku interesujących kompromisów, które miały wpływ na rzeczy takie jak pozycja głośników, waga przetwornika, kształt membrany przetwornika, wzór przemysłowy obudowy głośnika, a nawet fundamentalna charakterystyka pasma przenoszenia.
*W innych kontekstach nazywaliśmy to ucieleśnione zawieszenie niewiary „obecnością”, ale ten termin ma inne konotacje w świecie dźwięku, więc nie będziemy z niego korzystać w reszcie tego artykułu z cyklu „Dogłębna analiza”.
Zarówno sprzęt, jak i oprogramowanie
Przekonującą immersję audio można osiągnąć tylko poprzez poleganie na oprogramowaniu i sprzęcie jednocześnie. Wiedza na temat tego, gdzie postawić granicę między tym, za co odpowiedzialny jest sprzęt (urządzenia audio) i oprogramowanie (gry, aplikacje VR) wymagają całościowego zastanowienia się nad tym, jak działa dźwięk w całym VR – od tego, jak zawartość dźwiękowa jest tworzona, jak jest dostarczana na wyjściu przez silniki gier, aż po to, jakie istnieją sposoby, by dotarła do samego ucha.
Jeżeli chodzi o oprogramowanie, inżynierowie i naukowcy dźwięku do gier pracowali nad stworzeniem przekonywującej, immersyjnej zawartości dźwiękowej od lat 90. XX wieku, gdzie pojawiły się pierwsze gry i technologie oparte na perspektywie pierwszej osoby (Doom, Half-Life, Aureal3D itp.). Następnie dzięki obecnej generacji VR dostrzegliśmy znaczące udoskonalenie technologii przestrzennego dźwięku. Renderowanie binauralne i opierające się na fizyce wtyczki symulacji dźwięku takie jak SteamAudio umożliwiają producentom jeszcze większą dokładność pozycjonowania sonicznego, fizycznie dokładny wirtualny pogłos, okluzję dźwięku oraz propagację, a wszystko to przez zwykłe słuchawki stereo. Podczas rozważań nad optymalnym urządzeniem dźwiękowym dla obecnego VR wykorzystaliśmy następującą wiedzę i badania w oprogramowaniu do symulacji audio:
- Treści VR są zazwyczaj dostarczane w stereo – jednym kanale lewym i jednym prawym. Mogą one zawierać zagnieżdżone podbarwienie binauralne i tonalne HRTF w odniesieniu do tego, gdzie gracz się patrzy w dowolnym miejscu w czasie.
- Nasze uszy zewnętrzne, kształt głowy i geometria twarzy dodają specyficzną sygnaturę akustyczną, która pomaga naszym mózgom odróżnić prawdziwe dźwięki od wyimaginowanych, a także lokalizację źródeł dźwięku w stosunku do nas (za nami, przed nami, pod nami, z lewej, z prawej itp.).
- Wierność dźwięku o średniej i wysokiej częstotliwości jest bardzo ważna.
- Symulacje binauralne polegają na subtelnych zmianach w podbarwieniu tonalnym (1-8 kHz), by przekazać pozycję źródła dźwięku w odniesieniu do gracza. Jeżeli urządzenie dźwiękowe dodaje swoje własne podbarwienie częstotliwości, zakłóci to możliwość zlokalizowania dźwięku przez gracza.
- Ludzie ogólnie są bardzo wyczuleni na dźwięki w zakresie 2-5kHz. Jeżeli częstotliwość wirtualnego dźwięku nie zgadza się z tym, czego od niego oczekujemy w rzeczywistości, to jesteśmy bardziej skłonni uznać go za „nieprawdziwy”. Jest to szczególnie prawdziwe, jeżeli porówna się to do tego, jak łatwo stwierdzić, czy czyjś głos jest odtwarzany przez głośnik, czy ktoś stoi i mówi koło ciebie.
- Wierność dźwięku o niskiej częstotliwości jest ważna.
- Podczas gdy treści o niskiej częstotliwości nie pojawiają się w naturze zbyt często, to w VR i branży rozrywkowej pojawiają się niezmiernie często (muzyka, dudnienie, eksplozje, wystrzały, bicie serca, uderzenia, czary itp.). Bas jest kluczowy do przekazania poczucia skali i rozmiaru. Wzmacnia wirtualną immersję VR i wywołuje konkretne emocje – niebezpieczeństwo, trwogę, izolację, uwewnętrznienie itp. Dlatego też ważne jest, by nasze urządzenie dźwiękowe utrzymywało zdrową dawkę basów.
Dlaczego nie słuchawki?
Tradycyjne słuchawki są świetne w dostarczaniu bezpośrednich dźwiękowych treści stereo w odniesieniu do pozycji gracza prosto do każdego ucha. Gracze w wirtualnym świecie mogą patrzeć się w dowolnym kierunku, a silniki gier 3D z wtyczkami symulacji dźwięku będą przekazywać wymagany sygnał stereo, by przekazać poprawną lokalizację każdego źródła wirtualnego dźwięku. Jest to powód, dla którego turniejowi gracze e-sportowi (np. w CS:GO) używają słuchawek zamiast głośników stojących przed nimi – słuchawki dostarczają bardziej bezpośrednich dźwiękowych informacji przestrzennych. Dwa kanały wyjściowe (L/P) do dwóch słuchawek (L/P) dla dwóch uszu (L/P) – proste jak drut.
Aczkolwiek ogólnie rzecz biorąc tradycyjne urządzenia dźwiękowe rzadko kiedy są projektowane pod kątem immersji sonicznej. Urządzenia osobiste takie jak słuchawki douszne, nauszne i wokółuszne są zoptymalizowane pod kątem słuchania muzyki oraz innych form rozrywki, gdzie głośniki są niestosowne i często pobór mocy jest niezmiernie niski (np. komórki lub urządzenia na baterie). Skupiają się one często na izolacji dźwięku, wydajności mocy, redukcji szumów i przesadnym paśmie przenoszenia. Poczuliśmy, że wiele z tych optymalizacji może nie mieć za wiele sensu w kontekście VR w skali pokoju, gdzie ogólne środowisko nasłuchowe jest dedykowanym obszarem przestrzeni (np. pokój w budynku z niezbyt głośnymi dźwiękami otoczenia) i gdzie niewielki wyciek dźwięków może być w porządku. Mamy dostęp do dużej mocy, a pasmo przenoszenia musi obsługiwać założenia binauralnych symulacji dźwięku.
Słuchawki muszą wchodzić w kontakt z uchem lub je otaczać, by optymalnie osiągać swoje cele. Zauważyliśmy, że działa to przeciwko immersji dźwiękowej w następujące sposoby:
- Odtwarzanie dźwięku bezpośrednio do kanału usznego pomija naturalny proces słuchania powodowany przez interakcję ucha i głowy z prawdziwymi falami dźwiękowymi. Słuchacze przegapiają tonalną sygnaturę akustyczną tworzoną przez uszy, głowę i osobistą geometrię. Może to spowodować, że dźwięk jest odbierany jako wyimaginowany lub dochodzi z wnętrza głowy, nawet jeżeli treści audio są bardzo przestrzenne i symulowane fizycznie. Przewidujemy, że oprogramowanie do symulacji w końcu będzie brać to pod uwagę.
- Nacisk na ucho może być czasami bolesny i niekomfortowy po długim czasie, przez co gracze będą odciągani od VR.
- Niektórzy testerzy zgłaszali, że sam fakt, że słuchawki dotykają uszu, sygnalizował, że wszelki odtwarzany przez nie dźwięk nie będzie prawdziwy.
- Zamknięcie ucha słuchawkami nausznymi może magazynować ciepło – przez co gogle VR mogą wydawać się użytkownikowi cieplejsze niż w prawdziwym świecie, zmniejszając poczucie wirtualnej rzeczywistości.
- Tonalna jakość dźwięku niektórych słuchawek może kolidować z subtelnym podbarwieniem częstotliwości symulacji binauralnych. Przykładowo słuchawki, w których średnie i wysokie częstotliwości są albo przesadzone, albo przytłumione, będą najprawdopodobniej kolidować z subtelnościami filtrów HRTF, co w rezultacie daje słabe poczucie kierunkowości dźwięku w grach i VR.
Dlaczego nie głośniki?
Braliśmy również pod uwagę również głośniki konsumenckie oraz głośniki kształtujące wiązkę w typowych konfiguracjach stereo lub surround. Głośniki pomijają wiele problemów z komfortem związanym ze słuchawkami i odtwarzają dźwięk, który możemy z łatwością odebrać jako pochodzący spoza naszych głów, ale stanowią kilka przeszkód w przypadku ich użycia:
- Istniejące konfiguracje głośników stereo wymuszają taką orientację, by były one skierowane frontem do użytkownika, więc dźwięk jest odtwarzany tak, jak gdyby użytkownik był częścią widowni, słuchał kapeli na scenie lub oglądał telewizję na kanapie. Jest to w porządku dla muzyki i filmów na ekranie, ale VR i treści stereo w grach zakładają na wyjściu, że kanały L/P dostarczają dźwięk natychmiast do każdej strony głowy słuchacza.
- Pospolite systemy dźwiękowe surround 5.1 i 7.1 ograniczają odtwarzanie do pola horyzontalnego, z kolei VR i treści dźwiękowe w grach mogą znajdować się praktycznie wszędzie wokół słuchacza.
- Poprawne przygotowanie systemów głośników może zająć użytkownikowi czas i miejsce, tworząc dodatkowe „zgrzyty” przy konfigurowaniu VR.
- Głośniki wymagają od gracza, by pozostał w idealnym miejscu, by dźwięk przestrzenny był odbierany dokładnie. VR czasami wymaga od graczy, by poruszali się po dużej przestrzeni.
- Na głośniki może wpłynąć akustyka prawdziwego pokoju, co może kolidować z zamierzoną akustyką wirtualnego świata.
- Głośniki mogą sprawić, że dźwięk wydaje się znajdować zbyt daleko, co zaprzecza lokalizacji źródła dźwięku w wirtualnym świecie, który może być bardzo blisko wobec uszu graczy.
Pomysł
Biorąc pod uwagę wszystkie powyższe kompromisy, wydaje się oczywiste, że optymalnym rozwiązaniem dla VR może być para ultrakompaktowych pozausznych (pozaauralnych) słuchawek o pełnym zakresie. Na tyle bliskich uszu na tyle, by naśladować relatywne w stosunku do pozycji gracza słuchawki stereo i wspierać formaty wyjściowe obecnych treści VR, ale też na tyle odległych, by umożliwić uszom i głowie wyrycie na dźwięku swoich podbarwień tonalnych, odnosząc się do problemów z komfortem i naciskiem. To właśnie ta świadomość połączona z inspiracją ze wspomnienia z dzieciństwa polegającym na byciu całkowicie pochłoniętym dźwiękiem podczas leżenia między dwoma głośnikami hi-fi spowodowała stworzenie pierwszych prototypów.
Ewolucja
Pierwszy prototyp powstał poprzez przyklejenie dwóch małych głośników pełnozakresowych przeznaczonych dla komputerów osobistych do boków kasku ochronnego dla skejterów. Wokół kasku przypięty był stary Vive. Głośniki były zasilane przez USB, a audio wychodziło poprzez złącze słuchawkowego na HTC Vive. Ten surowy prototyp zaskakująco dobrze demonstrował zwiększenie immersji sonicznej oraz uzewnętrznienia, gdy umożliwiliśmy naszym własnym uszom i głowie interpretować dźwięk naturalnie. Poczucie immersji trudno zmierzyć ilościowo, więc na tym etapie opieraliśmy się na informacjach jakościowych od naszych kolegów i testerów, by opisać dźwiękowe różnice między tym prototypem a parą nausznych słuchawek KOSS Porta Pro podczas bycia w VR. Odpowiedzi uzyskane od nich świadczyły na korzyść głośników na tyle, że czuliśmy się wystarczająco komfortowo, by poprowadzić ten projekt dalej. Aczkolwiek pojawiły się kolejne problemy:
- Bardzo ograniczone przenoszenie basu.
- Nieznaczne zmiany pozycji głośników spowodowane nałożeniem gogli w inny sposób lub poruszanie w VR powodowało znaczną zmianę głośności, pasma przenoszenia i balansu dźwięku.
- Waga i rozmiar. Głośniki były zbyt ciężkie (70 gramów każdy), co kolidowało z naszym celem uczynienia gogli lekkimi i komfortowymi. To prawdopodobnie było na początku największym zmartwieniem.
- Wyciek dźwięku.
Aby rozwiązać problem wagi, rozpoczęliśmy poszukiwania przetworników słuchawkowych zamiast głośnikowych. Mimo że są lżejsze i wydajniejsze w kwestii poboru mocy, nie były wystarczająco głośne, gdy były trzymane z dala od ucha w powietrzu. Wprawdzie wiedzieliśmy, że będzie miało to miejsce, ale ciekawie było usłyszeć kompromisy między immersją dźwiękową, dystansem od ucha, pasmem przenoszenia i głośnością.
Chcieliśmy dowiedzieć się, jak duże muszą być przetworniki słuchawkowe, by mogły zacząć spełniać nasze wymagania odnośnie głośności i pasma przenoszenia w naszym kontekście pozaauralnym. Rozmawialiśmy z firmą Audeze która stworzyła parę płaskich magnetycznych słuchawek pozaauralnych, byśmy mogli się tego dowiedzieć. Rezultat tych prac brzmiał niesamowicie, ale rozmiar, waga i koszt nie były realne w celach produkcyjnych sprzętu Valve Index.
Następnie wróciliśmy do korzystania z przetworników głośnikowych jako podstawy naszego projektu. Jedną z korzyści wczesnych badań i rozwoju audio na tym etapie była możliwość pracowania nad tym aspektem niezależnie od reszty systemu gogli Valve Index. Z pomocą inżyniera mechanika stworzyliśmy samodzielną specyfikację fizyczną słuchawek. W tym nowym kontekście byliśmy szybko w stanie tworzyć kolejne iteracje przenoszenia basów, nagłośnienia, orientacji wobec ucha, odległości od ucha oraz oraz oceny testów A/B przetworników głośnikowych. Ten prototyp był pierwszymi wydrukowanymi w 3D słuchawkami z głośnikami przyusznymi. Wewnętrznie nazywaliśmy je „Kolibrami”.
Te kolorowe Kolibry zostały stworzone w celu oceny różnych rodzajów małych, pełnozakresowych przetworników głośnikowych. Do tego momentu wykorzystywaliśmy całe systemy słuchawek i głośników konsumenckich. Zakup i ocena kupionych detalicznie części wymagała od nas tworzenie podstaw podsystemów dźwiękowych: wzmacniaczy, czipów audio, procesorów DSP i mikrofonów. Równolegle zbliżaliśmy się do zdefiniowania naszych celów odnośnie odległości od ucha, rotacji, wagi, wymiarów głośnika i pasma przenoszenia.
Podczas naszej fazy oceny przetworników natknęliśmy się na głośniki BMR (Balance Mode Radiator) i natychmiastowo zauważyliśmy kilka korzyści: zmniejszały podbarwienie z powodu niepoprawnego położenia głośników, prawie osiągały nasz cel dotyczący wagi, miały świetne pasmo przenoszenia w średnich i wysokich zakresach częstotliwości (ważne dla symulacji binauralnych) i były znacznie węższe od tradycyjnych przetworników głośnikowych. Rozpoczęliśmy prace z firmą Tectonic nad zaprojektowaniem niestandardowego przetwornika, który posłużyłby nam jako głośnik przyuszny.
W naszej firmie coraz częściej pojawiały się wątpliwości co do tego, jak wiele dźwięku wyciekałoby z głośników usznych do środowiska oraz ile wpuszczałyby dźwięku. Aby uzyskać świadomość tego, jak duży wpływ może to mieć na klientów, stworzyliśmy ponad 20 kolibrów i pożyczyliśmy je naszym kolegom, by przetestowali je w domu. Nikt nie chciał zwrócić swoich kolibrów (Chet). Była to dobra oznaka, a opinie i sugestie uzyskane od testerów były przytłaczająco pozytywne. Testerzy komentowali, że korzyści płynące z tego, że nic nie dotykało ucha, oraz ze zwiększonego poczucia immersji dźwięku niwelowały problemy wynikających ze słyszenia dźwięków z zewnątrz i/lub wewnętrznego wycieku dźwięku. Zdecydowaliśmy się kontynuować ten projekt, ale musieliśmy pamiętać o tych problemach.
Produkt
Teraz mieliśmy działający podsystem głośników usznych, który dobrze wypadał w testach i był w obrębie naszych celów dotyczących wierności, kosztu i projektu. Rozpoczęliśmy proces łączenia projektu głośników usznych z goglami Valve Index. Tutaj ważne było rozpoczęcie akustycznego mierzenia wydajności naszego podsystemu audio w kontekście gogli. Dokonywanie dokładnych pomiarów pozwoliło nam uzyskać przyrostowe ulepszenia, a także zidentyfikować problemy z podsystemem audio. Początkowo używaliśmy „Pana CZAPKI”, naszego modelu głowy manekina do dokonywania pomiarów pasma przenoszenia naszych głośników usznych. Niebieska taśma na twarzy oznacza dokładne umiejscowienie gogli na modelu, by wczesne pomiary mogły pozostać spójne.
Aby zmaksymalizować jakość dźwięku, pasmo przenoszenia i rozszerzenie basu były mierzone i dostrajane codziennie. Podczas gdy my w Valve pracowaliśmy nad polepszeniem rozszerzenia basu poprzez procesor DSP z użyciem dostrajania EQ oraz algorytmów takich jak bas psychoakustyczny, Tectonic pracowało nad ulepszeniem basu mechanicznie, optymalizując sam przetwornik głośnikowy. Połączenie tych wysiłków umożliwiło nam osiągnąć (a nawet przekroczyć) nasze cele dotyczące jakości dźwięku i przenoszenia basów.
Wykorzystując przetworniki BMR, jesteśmy w stanie zapewnić spójną jakość dźwięku bez podbarwiania, nawet jeżeli głośniki są nieznacznie źle umiejscowione z boku głowy. Ma to miejsce z powodu unikalnego sposobu rozchodzenia się dźwięku przez BMR. Na niskich częstotliwościach zachowują się jak tradycyjne głośniki. Sygnał elektryczny wchodzi i cała membrana (przednia część głośnika) rusza się w przód i w tył, kopiując kształt sygnału. Natomiast cała magia ma miejsce na wyższych częstotliwościach. Gdy długość zakrzywionych fal rozchodzących się przez membranę jest bliska rozmiarowi membrany, tradycyjne przetworniki zaczynają wchodzić w tryby „zrywania”, które powodują, że membrany są zakrzywiane i falują, co tworzy bardzo ostre wartości szczytowe i spadki w paśmie przenoszenia, które poza złym brzmieniem są bardzo wyczulone na zmianę pozycji. BMR-y są zaprojektowane tak, by wykorzystać naturalne zachowanie membrany, balansując wibracje z różnych stref poprzez wybór zoptymalizowanych materiałów, obciążenie i rozległą symulację projektu. Czyli zasadniczo upewniając się, że twoje uszy zawsze otrzymują pełne informacje dźwiękowe – nawet jeżeli nie są idealnie ustawione wobec głośników BMR.
Dodatkowo firma Tectonic była w stanie mechanicznie zminimalizować wyciek dźwięku. Z racji tego, że przetwornik głośnikowy Valve Index ma otwarty tył, ciśnienie z przedniej strony może wchodzić w interakcję z ciśnieniem z tylnej strony. Aczkolwiek przetwornik sam w sobie zapewnia pewien stopień „samopochłaniania” poprzez swoją całkowitą średnicę. Zasadniczo zewnętrzna średnica każdego przetwornika głośnikowego uniemożliwia ciśnieniu z przedniej strony napotkanie ciśnienia z tylnej strony. Jednak pomaga to tylko w przypadku, gdy długość fal dźwiękowych w powietrzu jest mniejsza od samopochłaniania wynikającego ze średnicy przetwornika. Gdy długość fali staje się większa od średnicy przetwornika, ciśnienie z przodu będzie bezpośrednio wchodzić w interakcję z ciśnieniem z tylnej strony, co spowoduje silną redukcję. Ogólna średnica całego przetwornika wynosi około 5 centymetrów. Oznacza to, że nie ma redukcji powyżej 3 kHz, ale według naszej wiedzy powyżej tej częstotliwości występuje znacznie mniej treści audio. Większość treści audio ma miejsce poniżej 3 kHz i właśnie tam redukcja jest silna, co sprawia, że dźwięk nie rozprasza osób w pobliżu. „Uszy słuchacza noszącego gogle są tak blisko przetwornika, że redukcja nie jest dostrzegana, ponieważ ciśnienie z przedniej strony jest STOSUNKOWO znacznie bliżej ucha niż ciśnienie z tylnej strony” – Tim Whitwell, dyrektor ds. technologii w Tectonic.
Mikrofon
Nasz cel odnośnie wysokiej jakości mikrofonów w celu wsparcia streamerów i polepszenia jakości rozgrywek wieloosobowych był łatwy do zdefiniowania. Aczkolwiek z powodu projektu, jakim były głośniki przyuszne, oczekiwaliśmy, że wydajność mikrofonu będzie trudnym wyzwaniem. Zaskoczyło nas, że wcale tak nie było. Z powodu kilku unikalnych funkcjonalności głośników przyusznych byliśmy w stanie uniknąć używania znaczącej ilości cyfrowej obróbki redukującej szumy na sygnale mikrofonu, co z kolei umożliwiło nam zachowanie częstości próbkowania strumienia mikrofonu na bardzo wysokim poziomie 48 kHz. Oto lista funkcjonalności, które umożliwiły nam stworzenie wysokiej jakości mikrofonu:
- Układ dwóch mikrofonów, dzięki któremu możemy zawęzić charakterystykę kierunkową, skupić się na sygnale (ustach użytkownika) i wyeliminować dodatkowy szum zewnętrzny. Dwukierunkowy układ mikrofonów skupia się dźwiękach wydobywanych z ust użytkownika i wyklucza wszelki dźwięk zewnętrzny.
- „Samopochłanianie” z przetworników BMR redukuje zewnętrzne zanieczyszczenie szumem znacznie bardziej niż tradycyjne głośniki.
- Akustyka głośników i mikrofonu została zaprojektowana tak, by znacząco zmniejszyć wszelkie tory nieliniowego akustycznego sprzężenia zwrotnego. Głowa gracza pochłania większość początkowej energii dźwiękowej z głośników BMR.
- Mikrofony i ścieżki audio o wysokim stosunku sygnału do szumu.
- Mikrofony o dobrej jakości i uszczelki akustyczne.
- Dynamiczna kompresja nadchodzącego audio w celu uniknięcia przycinania głośnych głosów.
Przemyślenia końcowe
Wszystkie te badania, iteracje oraz sugestie i opinie skłaniają nas do stwierdzenia, że projekt głośników przyusznych Valve Index jest tak bliski optymalnej równowadze kompromisów i funkcji specjalnie zaprojektowanych do odtwarzania audio w VR w skali pokoju jak to tylko możliwe. Jesteśmy naprawdę zadowoleni z rezultatów pracy dźwięku i wiemy, że jest jeszcze wiele rzeczy, których można się nauczyć i ulepszeń, których można dokonać.
Jeżeli kieruje tobą pasja do dźwięku i chcesz z nami pracować nad rozwiązywaniem tego typu problemów, sprawdź nasze różne stanowiska związane z dźwiękiem lub wyślij do nas e-mail na adres jobs@valvesoftware.com.