
1. 项目缘起为什么需要一个“非语言发声”的评测基准如果你最近关注过AI语音合成领域无论是Sora带动的视频生成热潮还是各类AI配音工具的井喷你可能会发现一个有趣的现象我们评测一个语音合成系统的好坏似乎总在围绕“像不像人说话”打转。从早期的MOS平均意见分到现在的自然度、清晰度、相似度核心指标几乎都指向一个目标——让机器生成的声音无限逼近真人说话。这当然没错也是语音合成技术发展的主线。但作为一名在这个领域摸爬滚打了十多年的从业者我越来越感觉到我们可能无意中忽略了一个巨大的“声音宇宙”那些不承载具体语义却同样充满表现力、甚至更富情感张力的声音。比如一声叹息、一阵轻笑、一段哼唱、一次惊讶的吸气或者电影配乐中人声吟唱的部分。这些声音我们统称为“非语言发声”。为什么它们重要想象一下一个AI虚拟主播在播报新闻时如果全程都是字正腔圆的播音腔你会觉得它“专业”但可能不会觉得它“亲切”。但如果它在播报一条令人惋惜的消息时能自然地发出一声轻微的叹息在讲述一个有趣的故事时能配合内容发出会心的轻笑整个体验的沉浸感和真实感会瞬间提升几个量级。再比如在游戏、动画、有声书甚至心理疗愈应用中这些非语言声音是塑造角色性格、渲染环境氛围、传递微妙情绪不可或缺的“香料”。然而现状是尴尬的。当前主流的语音合成评测基准如Blizzard Challenge、Voice Conversion Challenge乃至各大厂内部的标准测试集几乎清一色聚焦于有文本脚本的朗读语音。对于非语言发声业界缺乏一个公认的、系统的、可量化的评测标准。这就导致了一个困境研究者想优化模型生成“笑声”的质量却不知道用什么指标来衡量“笑得好不好”开发者想集成这类功能面对市面上不同的方案也无从客观比较优劣。这就是“NVBench”诞生的背景。作为首个公开的双语中英文非语言发声语音合成评测基准它试图填补这块空白为这个细分但至关重要的研究方向立下一根“标尺”。我最初接触到这个项目时第一反应是“终于有人做这件事了”。接下来我将结合我的经验深入拆解这个基准的设计逻辑、核心挑战以及它对我们实际工作可能带来的影响。2. NVBench基准的核心构成与设计哲学一个评测基准本质上是一套“考题”加“评分标准”。NVBench的“考题”是什么它的“评分标准”又该如何制定这背后涉及对“非语言发声”这一复杂概念的深刻理解。2.1 数据集的构建捕捉声音的“无字之书”构建任何语音数据集数据是基石。对于非语言发声数据收集的难度呈指数级上升。首先定义与分类的模糊性。“非语言发声”本身就是一个光谱从完全无意义的语气词如“嗯”、“啊”到富有旋律的哼唱再到情绪饱满的笑声、哭声边界并不清晰。NVBench需要首先对其进行科学的、可操作的分类。根据公开资料和我的理解它很可能涵盖了以下几个核心类别情感性发声笑声轻笑、大笑、憨笑、哭声、叹息、惊讶倒吸气、厌恶咂嘴等。填充性发声犹豫时的“呃”、“嗯”思考时的拖长音等。韵律性发声哼唱有固定旋律、无词吟唱如“啊~”的长音带有音高变化。生理性发声咳嗽、打哈欠、清嗓子等这类在某些场景下也有表情达意的作用。其次数据获取与标注的挑战。朗读文本可以轻易地录制成千上万条平行语料同一文本不同人读。但你怎么让录音者在麦克风前“自然地”笑出十种不同的笑又如何标注一段“哼唱”的情绪是“愉悦的”还是“忧伤的”NVBench的构建者必须设计巧妙的诱发实验如让参与者观看搞笑视频、聆听感人故事来捕捉真实反应并建立一套细致的声音学与感知标注体系。这包括声学特征标注基频F0轮廓、能量包络、频谱特征、持续时间等。例如一段“冷笑”的F0曲线可能先陡升后骤降能量集中在中高频。感知属性标注通过众包或专家听评对每段声音的情绪喜悦、悲伤、惊讶、强度轻微、中等、强烈、自然度、适宜性等进行打分。最后双语与多样性。作为双语基准NVBench需要包含中文和英文语境下的非语言发声。这不仅仅是语言切换更涉及文化差异。例如中文语境中表示认可的“嗯”和英文中的“uh-huh”在音高模式和时长上可能有细微差别。同时说话人提供声音的录音者的年龄、性别、口音多样性也必须考虑以确保基准的泛化能力。2.2 评测任务与指标如何给“感觉”打分有了高质量的数据集接下来就是设计评测任务和指标。这是整个基准的“灵魂”也是最体现设计者功力的地方。核心评测任务很可能包括生成任务给定一个非语言发声的类别标签如“愉悦的轻笑”和/或一段文本上下文如“听到这个好消息后他……”让模型生成对应的声音。这是最直接、最具挑战性的任务。转换任务给定一段源语音包含或仅为非语言发声和一个目标属性如“将叹息转换为轻笑”要求模型在保持其他信息不变的情况下转换目标属性。可控性生成任务测试模型对发声强度、时长、音高等维度的精细控制能力。例如“生成一段强度为0.7、时长2秒的惊讶吸气声”。评测指标则需要从客观和主观两个层面构建且必须超越传统语音合成的指标客观指标声学特征匹配度计算生成声音与真实样本在F0曲线、梅尔频谱等特征上的距离如MCD梅尔倒谱失真。但这只能衡量“形似”无法衡量“神似”。分类器得分训练一个分类器如基于HuBERT等语音表示模型判断生成的声音属于哪个非语言类别用分类准确率作为指标。这能部分反映生成声音的“可辨识性”。嵌入空间相似度在预训练语音模型如WavLM的嵌入空间中计算生成声音与真实声音在高层语义表征上的余弦相似度。这比低层声学特征更能捕捉感知相似性。主观指标黄金标准 无论客观指标多先进最终评判权仍在人耳。NVBench必须设计严谨的主观评测实验。自然度与真实感MOS听众在不知道声音来源的情况下对生成声音听起来像“真人实时发出”的程度进行1-5分打分。情感匹配度MOS给定一个目标情感如“尴尬”听众评判生成声音传达该情感的准确程度。适宜性AB/X测试将生成的声音放入一个具体的上下文音频片段如一段对话的间隙让听众判断哪个声音插入后更自然、更贴合场景。注意主观评测的成本极高且容易受个体偏好影响。一个稳健的基准需要精心设计评测流程如随机化顺序、加入注意力检查题、招募足够多样化的评测人员并计算评测者间信度如科恩卡帕系数以确保结果可靠。3. 对现有技术路线的挑战与启示NVBench的出现就像一面镜子照出了当前主流语音合成技术在处理非语言发声时的“短木板”。也为我们未来的技术选型和研发方向提供了清晰的启示。3.1 主流TTS架构的局限性目前占统治地位的自回归式TTS模型如VITS、YourTTS和非自回归式TTS模型如FastSpeech系列其核心范式是“文本→声学特征→波形”。它们的强项在于建模文本和语音之间的对齐关系。但对于没有对应文本的非语言发声这个管道从源头就遇到了问题。输入表征的缺失我们无法用“ha ha ha”来精确描述一段笑声的起伏和气息。需要设计全新的、更丰富的输入条件例如符号化表示开发一套描述性的符号系统如“[LAUGH: typechuckle, intensityhigh, duration2s]”。声学提示提供一段种子音频或关键的声学特征轮廓作为条件。多模态上下文结合触发该发声的视觉信息如笑脸图片或前文语音的语义/情感特征。建模能力的不足非语言发声往往具有更强的随机性、更复杂的时序动态和更丰富的副语言信息如气息声。传统的音素时长预测、音高预测模块可能不再适用需要更强大的序列建模能力来捕捉这些无文本约束的、高度变化的声音模式。3.2 潜在的技术演进方向NVBench的评测任务直接指向了几个有潜力的技术方向提示学习与条件化生成借鉴扩散模型和大型语言模型的思路将非语言发声的生成视为一个“条件生成”问题。模型接收一个高度抽象的“提示”可能是文本描述、类别标签、情感向量、参考音频的CLAP嵌入等直接生成波形或神经声码器所需的特征。DALL-E 3之于图像可能就是未来“AudioLM”类模型之于非语言声音的方向。解耦表示学习目标是学习一个解耦的语音表示空间其中不同维度分别控制语言内容、说话人身份、情感、以及非语言发声属性。这样我们可以通过操纵“非语言发声”维度在保留其他信息不变的情况下为一段中性语音注入叹息或笑声。这需要对对比学习、向量量化等表示学习技术进行创新性应用。数据高效与零样本学习高质量的非语言发声数据注定是稀缺的。如何利用海量的、未精细标注的日常对话语音其中包含大量非语言发声通过自监督、弱监督的方式让模型学会“听”和“生成”这些声音是一个关键课题。WavLM、HuBERT等自监督语音表示模型在此领域可能大放异彩它们从海量数据中学到的丰富表征是理解非语言信息的宝贵先验知识。上下文感知与生成非语言发声极少孤立存在。一声“哼”在争吵后和撒娇时含义天差地别。未来的模型需要深度理解前后语音的语义、情感和韵律上下文才能生成时机恰当、含义准确的非语言发声。这要求模型具备更强的对话历史和场景建模能力。4. 实战思考基准如何影响我们的产品与研发对于一个一线的算法工程师或产品经理来说NVBench不仅仅是一个学术榜单它更是一个实用的“工具箱”和“方向标”。4.1 在模型选型与评估中的应用假设你的团队正在开发一款AI虚拟偶像需要为她添加丰富的反应声音。面对几个备选的语音合成引擎或开源模型如何决策过去你可能只能靠“听感”做模糊判断。现在你可以利用NVBench或借鉴其思想自建内部基准进行量化评估定义核心需求你的产品最需要哪类非语言发声是笑声、叹气还是哼唱对自然度、可控性、实时性的优先级如何设计内部测试集从NVBench的分类中选取相关类别收集或录制一批符合产品调性的测试样本例如虚拟偶像应该是“元气少女的笑声”而非“大叔的憨笑”。执行对标测试用统一的客观指标如嵌入相似度和主观评测邀请目标用户群体进行AB测试对各个候选模型打分。做出数据驱动的决策综合得分、推理速度、部署成本等因素选择最适合的模型。你会发现某些在朗读任务上MOS分很高的模型在生成笑声时可能表现平平这避免了“唯MOS论”的陷阱。4.2 在研发流程中的集成在模型研发阶段NVBench可以作为一个重要的验证集和损失函数设计灵感来源。多任务训练与损失函数你可以在训练主TTS模型时加入一个辅助的“非语言发声分类”任务或者使用从NVBench数据中提取的声学特征作为额外的回归目标让模型隐式地学习这些模式。可控性模块开发如果你想开发一个独立的“笑声调节滑块”NVBench中标注了不同强度的笑声数据就是训练强度预测或控制模块的绝佳素材。迭代验证每个开发迭代周期后不仅在传统TTS测试集上跑分也在NVBench的子集上测试确保新改进没有损害模型生成非语言声音的能力甚至有所提升。4.3 需要注意的陷阱与挑战当然拥抱新基准的同时也要保持清醒过拟合风险如果一个模型在NVBench上分数很高但在你的具体应用场景中表现不佳可能是模型过拟合了基准数据的特定分布。基准是标尺不是圣旨。最终一定要在自己的业务数据上进行验证。评测成本完整运行一次NVBench的主观评测耗时耗力。在实际工作中可以优先采用其客观指标进行快速迭代定期如每月进行一次小规模的主观评测作为校准。定义边界非语言发声与背景音乐、音效的边界有时很模糊。基准的定义需要清晰否则会在标注和评测时引入噪声。在实际产品中也需要明确哪些声音由TTS模型生成哪些由音效库提供这涉及系统架构的设计。从我个人的经验来看NVBench这类基准的出现标志着语音合成研究正在从一个“读稿机”向着“情感丰富的表达者”深化。它迫使我们去思考语音中那些无法被文字承载却至关重要的部分。对于开发者而言它提供了新的优化维度和评测工具对于研究者而言它开辟了一片充满挑战的新蓝海。下一次当你调试TTS模型时或许可以问自己一个问题除了字正腔圆它会“笑”了吗