耳部扬声器 - 研究、设计、演变
Valve Index 耳部扬声器为虚拟现实的特定体验目标而优化,因此其设计与普通消费型耳机有明显不同。
我们的早期 VR 实验清楚表示,要帮助 VR 用户达到恰当的停止不信*,不仅依赖传统游戏与电影的叙事、环境和感情方式,还需要一整套全新的 VR 专用生理学方面的问题解法。我们戴上头戴式显示器玩 Budget Cuts 时,期待 VR 让我们感觉自己置身于满是残暴机器人的办公室,而不是只通过静止不变的屏幕向我们展示一个环境。
我们通过研究与可玩性测试了解到,要实现最大程度的音效沉浸感,在音频组件设计上要注意的限制条件跟在 3D 定位系统和在显示器面板上的一样多。我们还了解到,围绕这些限制条件进行设计,就意味着一些特别的妥协,这会影响到耳机位置、驱动器重量、驱动器振膜形状、扬声器外壳的工业设计,甚至是最基本的频率响应特征等等。
*我们在其他情况下也将此实体化的停止不信称为“存在感”,但是该术语在音频领域具有其他含义,因此我们在本篇深入了解文章内并不使用。
硬件与软件
只有同时结合硬件与软件的功能才能实现令人信服的音效沉浸感。要明白哪些由硬件(音频设备)负责,哪些由软件(游戏、VR 体验)负责,需要对整个 VR 音频工作流程进行全盘考虑:VR 声音内容从如何创建,到如何由游戏引擎输出,直至到达耳部。
在软件端,自九十年代出现第一人称声音摆位体验(Doom、《半条命》、Aureal3D 等)时起,游戏音频工程师和科学家就开始在致力于创造令人信服的沉浸式声音内容。接着,归功于当代 VR,空间声音技术有了长足的进步。双声道渲染和基于物理学的声音模拟插件如 SteamAudio 等使开发者创造出完全通过普通立体声耳机传送更精确的声音位置、符合物理学的精确虚拟混响、声音遮蔽和传播。为当前的 VR 考虑最佳聆听设备时,我们采用了音频软件模拟领域的下列知识和研究:
- VR 内容主要通过立体声(一左一右的声道)传送。这些声道可以包含嵌入双声道和相对于玩家在任何给定时间的注视位置的 HRTF 声音赋色。
- 我们的外耳、头型、面部结构都会添加独特的声音特点,帮助我们的大脑识别真实声音与假想声音,和识别音源相对于我们自身的位置(前后上下左右等)。
- 中高频声音的保真度非常重要。
- 双声道模拟借助声音赋色中的细微变动(1kH-8kHz)来传达音源与玩家的相对位置。如果聆听设备添加了其自有的低沉音频赋色,会干扰玩家本地化声音的能力。
- 一般而言,人类对 2kHZ-5kHz 区间的声音非常敏感。如果虚拟声音的频率不像我们在现实状况下的期待的那样,那么我们更有可能将该声音判断为”不真实“。如果有人通过扬声器发出声音和在您身边说话,您能很容易辨别出来,就是这样的情况。
- 低频声音的保真度相当重要。
- 虽然在自然状态下不常出现低频内容,但是在 VR 和娱乐性质的内容(音乐声、隆隆声、爆炸声、枪声、心跳、冲击波、咒语等)中相当常见。低音对于传达大小和规模至关重要,能增加 VR 的视觉沉浸感,并诱发某些情感信号,如危险、敬畏、孤独、内在化等。因此,我们的聆听设备支持合理程度的低音响应很重要。
为何不采用头戴式耳机?
传统头戴式耳机能出色地向各耳传送直接的相对玩家的立体声内容。在虚拟世界中,玩家可以面朝任何方向,带有声音模拟插件的 3D 游戏引擎会输出需要的立体声信号,以表达虚拟音源的正确位置。这就是参加比赛的电竞选手(如 CS:GO 选手)使用头戴式耳机而非正面扬声器的原因:头戴式耳机提供更直接的空间声音信息。左右两个输入音道、左右两个耳机部件、左右两只耳朵,非常清楚直接。
不过,一般来说,传统音频设备在设计时很少将音效沉浸感作为主要目标。个人设备如耳塞、贴耳式、离耳式耳机都针对在音响不适用的情况下聆听音乐和娱乐进行了优化,常常要求的功率极低(如手机、使用电池的设备)。设计常注重隔音、功率效率、降噪与加大频响。我们认为许多这类优化可能并不特别适用当前的房间规模 VR 环境,其普通聆听环境为空间专用音量(如有轻度背景环境音的室内),允许少量的声音泄漏。我们能获得足够功率,频响需要能呈现双耳声音模拟。
头戴式耳机和耳塞需要接触和蒙住耳朵才能达到最佳目标。我们发现这可能有时候会在以下方面影响音效沉浸感 。
- 将声音直接传输入至耳孔会绕过耳部与头部与真实声波互动的自然聆听过程。听者失去了耳部、头部和自身的几何形体所创造的音色信号。但这可能导致声音听起来像是假想的,或者来自听者自己的大脑里,即使声音内容极具空间感并模拟物理状态也会这样。我们预测最终软件模拟会解决这个问题。
- 人们在进行 VR 体验一段时间后,可能因耳压感到疼痛和不适而停用 VR。
- 一些游戏测试者称耳机与耳部接触给他们提供了一种信号,让他们觉得即将听到的声音不真实。
- 全包围耳机把耳部完全罩紧不利于散热,使用户感觉 VR 头戴式显示器比在真实环境下更热,减少了临场感。
- 部分耳机的音色品质会干扰双耳模拟的细微频率染色。例如,中高频被增强和压低的耳机最有可能干扰 HRTF 滤波器的细腻之处,导致游戏和 VR 中缺乏定向声音。
为何不用音响?
我们也考虑过常见的立体音响和环绕声系统里的消费级音响与波束成形扬声器。音响没有耳机造成的许多舒适度问题,发出的声音可以让人轻易理解为外部传入脑中的声音,但是存在一些采用方面的障碍:
- 现有立体声音响配置假设的是面向听者的正面,因此放出的声音像是坐在观众席里听台上的乐队演奏,或者在沙发上看电视。在听音乐或看屏幕上的电影时,这样没有什么问题。但是 VR 和立体声游戏内容是假设左右音道立即到达听者头部两边的输出。
- 常见的 5.1 和 7.1 环绕声系统将播放限制在水平区域,而 VR 和游戏声音内容可以虚拟地从听者周围的任何位置发出。
- 音响系统要求玩家花时间和空间以正确设置,这对 VR 设备造成了额外的麻烦。
- 音响要求玩家处于一小块“最佳位置”才能听到声音的精确空间再现。而 VR 有时要求玩家在较大的区域移动。
- 音响会受到真实房间的音效影响,这可能会与虚拟世界希望达到的音效发生冲突。
- 音响可能使声音听起来过远,与本可能非常接近玩家耳朵的虚拟音源位置不一致。
理念
在权衡上述所有缺陷之后,很明显 VR 的最佳方案可能是一副近场全频离耳(耳外)耳机。这样与耳朵足够近,可以模仿以玩家为中心的立体声耳机并支持当前 VR 内容的输入格式;但是又离耳朵足够远,让耳部和头部将其自有的音染色加入声音,还能够解决舒适和压力的问题。正是对这点的认识,并结合童年时躺在两个相对的高保真音箱之间完全沉浸在声音中的记忆,得以创造出最早的原型。
演化
首个原型是把两个全频桌面小扬声器驱动器用胶带粘到滑板头盔两侧。一个旧的 Vive 捆在头盔外侧。扬声器由 USB 供电,由 HTC Vive 上的耳机插孔输入音频。这个粗糙的原型令人惊讶地出色地演示了,我们让自己的耳朵和头部自然诠释声音时在声音沉浸感和形象化上的提升。沉浸感很难的量化,因此在这个阶段我们依赖同事与测试人员的质量反馈描述此原型与一副 KOSS Porta Pro耳罩式耳机在 VR 中的音效区别。反馈意见足够突出地支持采用扬声器,我们觉得有信心继续进行此设计。不过,这有几个问题:
- 低音响应非常有限。
- 由于头盔戴法不同和在 VR 中的移动,会使扬声器位置发生轻度变动,导致音量、频响和声音平衡显著不同。
- 重量与尺寸。扬声器过重(各重 70 克),不符合我们制作轻便舒适的头戴式显示器,让产品更出色的目标。这可能是我们一开始的最大顾虑。
- 声音泄漏。
为了解决重量问题,我们使用耳机驱动器替代扬声器驱动器。这样更轻、功率更高效,但是在正常空气中不靠近耳朵时并不能达到足够的音量。虽然我们料到了这个情况,但是体验到声音沉浸、远离耳朵、频响和音量之间的利弊消长关系还是很有趣的事情。
我们希望知道需要多大的耳机驱动器才能基本上满足我们在耳外环境下对音量和频响的要求。我们联系到 Audeze,对方开发了一副磁性平面耳外式耳机以帮助我们找到答案。音响效果惊人地出色,但是其重量、尺寸和价格都达不到 Valve Index 的生产目标。
接下来,我们返回使用扬声器驱动器作为设计的基础。这个阶段进行早期音响设备研发的好处之一是能够独立于 Valve Index 头戴式显示器之外工作。在机械工程师的帮助下,我们创造出一个独立的外耳耳机造型规格。在这个新条件下,我们能够迅速改进低音响应、调音、相对耳朵的方向、与耳朵的距离、AB测试扬声器驱动器评估。这一原型是第一款 3D 打印的耳部扬声器耳机。我们内部称之为“蜂鸟”。
这些色彩艳丽的蜂鸟是为评估不同的小型全频扬声器驱动器而设计的。到此时为止,我们一直在改变整个消费者级扬声器和耳机系统。购买并评估现成零部件要求我们开始建构音响子系统基础:放大器、音频芯片、DSP(数字信号处理器)、麦克风。与此同时,我们也越来越能清楚地界定我们的成品目标:距离耳部的最佳距离、旋转、重量、扬声器尺寸,以及频响。
我们在驱动器评估阶段遇到 BMR(平衡模式发声器)扬声器,很快注意到其具备的几点优势:减少扬声器位置不当导致的染色,差不多处于我们的目标重量区间内,在高中频段频响出色(对双声道模拟相当重要),并且比传统扬声器驱动器薄得多。我们开始与 Tectonic 合作,设计用于离耳扬声器的定制驱动器。
我们内部越来越担心耳部扬声器会泄漏多少声音至周围环境中,以及会混入多少外部声音。为了解这对顾客会有多大影响,我们制作了 20 多个蜂鸟耳机,借给同事们回家做测试。没人想归还借走的蜂鸟耳机。这跟众多的正面测试反馈一起,是个好兆头。测试人员说,完全不接触耳朵以及增强的声音沉浸感,抵消了传入的外部声音和/或泄漏的内部声音所带来的问题。我们决定继续沿着这个设计方向发展,但是把这些问题记下来。
产品
我们目前有一套可以使用的耳部扬声器子系统,游戏测试表现良好,并大致处于我们的保真度、成本和设计目标之内。我们已经开始将耳部扬声器设计与 Valve Index 头戴式显示器合并。因此,测量音频子系统在头戴式显示器环境下的声学性能就变得非常重要。采取精确测量允许我们获得逐步的改进并识别音频子系统中的问题。最初我们使用了假人头部模型”帽子先生“来测量耳部扬声器的频率响应。模型脸部的蓝色胶带标出了头戴式显示器在模型上的确切放置位置,因此早期测量可以保持一致。
为了获得最佳音质,我们每天测量并优化频率响应和低频延伸。Valve 使用 EQ 调谐和类似于心理声学低音的算法,通过 DSP 尽力改进低频延伸,而 Tectonic 则通过优化扬声器驱动程序本身在机械方面改进低频。多种努力的结合使得我们可以实现并超越在音质和低频响应方面的目标。
由于使用了 BMR 驱动器,即便扬声器在头部两侧的佩戴位置有轻微误差,我们也得以确保音质的一致性,且没有音染。而这是由于 BMR 特有的声音发散方式。在低频率时,其工作方式与传统扬声器并无二致。电子信号传送进来时,整个振膜(扬声器的前部)来回移动以追踪信号的形状。不过,高频率才是真正出现奇迹的时刻。当振膜中传播的弯曲波波长与振膜大小相近时,传统的驱动器会开始进入“盆分裂”模式,造成振膜弯曲并产生波纹,导致频率响应出现强烈的高峰低谷,不但听起来很糟,也对放置位置非常敏感。BMR 在设计时,优化材料选择和质量负载,并进行了大量的设计模拟,因此其可以利用振膜的自然行为,平衡来自不同区域的震动。总之,即使您的双耳并未完全对准扬声器,也能确保您始终可以接收到完整的声音信息。
此外,Tectonic 也可以从机械方面最大程度地减少声音泄漏。因为 Valve Index 的扬声器驱动单元为背部开放式,所以来自前部的压力可以与来自后部的压力交互,而两者根据定义就是不协调的。然而,驱动单元本身通过其总直径自己就提供了一定程度的“自我阻隔”。从根本上说,任何扬声器驱动单元的外径有助于防止前部的压力与后部的压力交会,虽然这仅在空气中声波的波长小于驱动器直径的自我阻隔时才发挥作用。波长大于驱动器直径时,来自前部的压力会直接与来自后部的压力交互,就会发生很强的抵消作用。驱动单元的整体直径约为 5 厘米,这意味着在大于 3kHz 左右时不会发生抵消。但正如我们所知,此频率以上的音频内容逐渐减少。大部分的音频内容都是在 3kHz 以下,而这也是抵消极强的区间,防止声音打扰附近的人。“配戴头戴式显示器的听者耳朵离驱动器单元非常近(近场),来自前部的压力相比来自后部的压力而言更接近耳朵,因此无法感知到抵消作用。”Tectonic 的首席技术官 Tim Whitwell 如是说。
麦克风
我们在头戴式显示器上配备高品质麦克风以支持主播和多人游戏体验的目标很容易解释。然而,由于离耳扬声器的设计,我们预计这对麦克风的性能会带来巨大的挑战。让我们吃惊的是,情况并非如此。由于耳部扬声器的数项独特功能,我们得以避免针对麦克风信号大量使用降噪 DSP,这反过来使得我们可以将麦克风流式传输的采样率保持在极高的 48kHz。以下列出了有助于打造高品质麦克风输入的功能:
- 双麦克风阵列,以缩窄指向性响应,专注于信号(用户口部),并消除其他外来噪音。双指向性麦克风阵列专注于拾取用户口部声音,并排除任何外部声音。
- BMR 驱动器的“自我阻隔”比起传统扬声器能减少更多的外部噪音污染。
- 扬声器和麦克风的声学系统旨在大幅减少所有非线性声学反馈路径。玩家的头部吸收了 BMR 扬声器最初发出的大部分声能。
- 高信噪比(SNR)麦克风和音频路径。
- 优质麦克风和声学密封件。
- 对传入的音频进行动态压缩,以避免声音过大时破音。
最终的想法
所有这些研究、迭代和反馈使我们相信,就房间规模 VR 音频播放而言,Valve Index 的耳部扬声器设计已经是当前在各种特别设计的功能和妥协之间所能达到的最佳平衡。我们对音频播放时的体验大感欣慰。话虽如此,我们还是有很多要学习和可以改进的地方。
如果各位对音频充满激情,也希望与我们共同解决此类问题,请探索各音频相关领域,或是发送电子邮件到jobs@valvesoftware.com
。