科学人

3364字
需用时 06:43

所以，KTV打分是有几个评委蹲在里面吗？

果壳

所以，KTV打分是有几个评委蹲在里面吗？

原创方点点果壳

如果你还有在KTV唱歌的“古早回忆”的话，是不是有过以下经历：

在KTV唱得声泪俱下，歌曲结束系统评分39；飙高音飙到觉得自己邓紫棋第二，结果机器评价说你的声音像腾格尔。

而你朋友鬼哭狼嚎，一个音拖老长；又或者没有技巧，只有嗓门，但得分就是比你高。

面对占据一半屏幕的打分界面，只觉得瞬间兴趣全无，只想一把关掉，安心唱歌。

K歌房里的我｜Giphy

而年轻一些的，不知道KTV评分（甚至KTV）为何物的朋友，可能在短视频里刷到过这种神奇场面：本来唱得干涩难听，打开一个叫“声卡”的东西后，突然一键美声，余音绕梁。

不知从何时开始，唱歌也跟“科技狠活”捆绑在了一起，给你打分、给你修音，说你唱得差的也是它，让你一键成天籁的也是它。

作为K歌软件重度用户的作者深有体会。问：我唱得好听吗？从前，作答的是听众反馈；现在，则是屏幕上的那串分数。仿佛只有借助这剔除了主观因素的“第三只眼”，好与不好才有说服力。

但等等，电脑，是怎么听懂我唱歌的？

K歌和评分是怎么走到一起的

1971 年，当日本音乐家井上大佑带着他制造的十台 Juke 8卡拉OK机前往小酒馆时，可能并没有想到，在不到二十年时间里，这些如电子游戏机般的铁盒子将席卷世界，“改变亚洲的夜晚”，乃至为他赢得诺贝尔奖（尽管是搞笑版的）。

改变亚洲夜晚的KTV｜wikimedia commons

八十年代正是卡拉OK在日本风靡的时候。约上三五好友，下班后高歌一曲，是当时许多上班族释放压力、宣泄情绪的选择。慢慢地，大家不再满足于录唱，进而追求更高的音质、更舒适的场地、视听结合的享受，以及更趣味的功能——比如，卡拉OK评分。

音乐娱乐的蓬勃发展带动生产商研发投入。1982 年，日本歌乐（Clarion）公司推出首款带打分功能的家用卡拉 OK 机 MW-5000A。随着卡拉 OK 从日本传入亚洲各国乃至全世界，评分系统也跟着漂洋过海，逐渐成为音乐娱乐中脱不开的一环。

卡拉OK机｜wikimedia commons

不过，让机器给人类的歌声评分没有那么容易。

K歌评分的主要思路是比对旋律特征，音高和节奏是两项重要指标。用户演唱的旋律特征和原唱越相似，在机器看来则代表着“音准越好”“节奏越对应”，得分就会越高。

做到这些需要三步走：一是根据评分标准，提取原曲的旋律特征，建立标准模板库；二是通过算法提取被评分的干音（设备采集的未经任何后期处理的人声录音）旋律特征；最后，把两者特征相似度进行量化评估，得出分数。

K歌评分三步走

提取原曲旋律、建立标准库，离不开指令型文件MIDI（Musical Instrument Digital Interface）。这是一种编曲界应用最广泛的音乐标准格式，是计算机和电子乐器通用的“语言”。与mp3、wav等波形文件不同，MIDI文件不传输声音信号，而是传递音符、控制参数等指令，以此控制电子乐器发出适宜的声音。

MIDI文件的编辑界面 | 开源软件Aria Maestosa

由于MIDI是计算机可理解的“乐谱”，内含乐曲的标准音符，算法便可以直接从其主音轨中抽取较为准确的旋律信息，如标准的音高音长等。

相较MIDI的信息“直给”，用户K歌干音的旋律特征则需要靠估算得来。首先，要把干音切为一格格短而平稳的声音信号，就像钟表上一分钟被均分成许多秒一样；接着通过算法估计每格声音信号的基音频率（基音指发声体振动中频率最低、一般而言强度最大的振动，它可以决定音高），生成音高序列；此外还要消除噪音，修正可能存在的杂音、错音。

得出分数前的最后一步，便是把原唱和用户歌声的旋律特征进行相似度匹配。简单粗暴的方法是直接计算两段音高序列轮廓的余弦相似度。然而用户歌声的音符和原唱不一定等长，可能影响匹配准确性，于是也有算法会通过线性缩放用户歌声音符长度后再进行比较；或是通过延伸、缩短用户歌声的时间序列，使比较的两者在时间上对齐，再计算相似度等。

你可以通过KTV打分界面上跳动的音符感受到这些步骤，歌声驱动的光标画出的可以看作你的音高轮廓线。只要每个音“高度”适宜，长短合拍，机器就会奖你大大的Perfect。

光标跳动，Perfect出现 | 作者提供

当然，仅凭两个指标很难全面衡量一首歌曲的演唱质量，系统所认定的“高分”演唱在人类耳中并不一定好听。翻翻头部K歌软件的相关话题，总逃不开灵魂呐喊：“我明明唱得很好，为什么分数这么低？！”

从回答数看，大家有很多话想说 | 百度知道

人民群众在长期实践中甚至总结出了一套高分技巧：录音清晰、歌声音量大、声音平稳、尾音拖长，都可能让你获得系统青睐。

至于美妙音色，动情演绎？对不起，不在考虑范围内。

气沉丹田？这机器也懂啊？

唱歌评分需要些新花样。

2012年，在线K歌app唱吧率先把音乐娱乐挪到线上，两年后，背靠腾讯的全民K歌也加入赛道，拉开了在线KTV独占鳌头的时代大幕。主打社交属性、拥有连麦、PK等录唱新玩法的在线K歌逐渐取代线下KTV，成为这一代年轻人的K歌首选。

K歌也PK | 作者提供

在互联网公司技术实力的加持下，K歌评分进入2.0时代。这导致的结果是，靠干嚎骗过机器的难度大幅提升了。

2021年前后，一些K歌软件推出多维打分模型，除了原有的音准、节奏两项，还新增了技巧、气息、情感等几个向度。

多维评分雷达图 | 作者提供

实现思路是拆解各向度的特征，将其转化为可量化的指标。比如技巧中的颤音，这是音高在一定范围内出现的周期性变化，视觉化后反映为音高线类似正弦波形状的上下浮动。

但现存算法的分辨率不如人意，于是有人想到过滤对角化（Filter Diagonalisation Method，FDM），一种源自量子物理，通常被用于研究分子动力学与核磁共振的算法。它能比较精确地把局部基频分解为正弦波，并直接返回其频率和振幅，系统据此判断颤音的存在并检测相关参数。这一跨界让检测准确度比传统方法高了一倍。

带有颤音的频谱图（上）和音高轮廓图（下），音高线抖动部分为颤音 | 参考文献[4]

滑音是另一种常用的歌唱技巧。在算法里，它可以表现为音高线的连续滑动，即音高轮廓图呈现出上行或下行的S形。由于两端有一定的音高差并发生在有限的时间内，音高变化必然伴随加减速，这一过程必定存在两个拐点。通过这些特性找到滑音两个端点，即可辨认滑音。

插图：带有滑音的频谱图（上）和音高轮廓图（下），灰色部分是滑音 | 参考文献[4]

声乐讲究的“气沉丹田”，也在音频工程师们的努力下有了标准。比如，一个发声句句末的长音是否唱足了、声音质量好不好、前后变化程度如何，可以作为衡量歌唱气息是否充足、平稳、控制得当的标准。也有人从气口（唱歌时的吸气时刻）入手：如果原唱相邻两个音之间距离超过阈值，则设置为有气口，据此检测用户是否有不合时宜的断句或未唱满的情况。

歌唱气息评分相关专利 | 参考文献[5]

情感这样的主观领域，则被音频工程师们转化为演唱投入程度，并用音频能量来量化。通过测量不同时间尺度的音量特征和强弱起伏情况，算法便读懂了“感情”。

没有感情（上）与有感情（下）的演唱音频波形图，真实演绎“全是感情” | 参考文献[6]

不过，老方法里的提取和匹配旋律特征仍然是核心，这里面也有了技术迭代。以匹配节奏为例，市面上较为流行的做法，要么是直接比对音符长短，要么是匹配干音音高轮廓与原唱的相似度，但这对漏唱、错音或者跑调选手来说都相当不友好。

新提出的计算思路有点类似音乐游戏：首先，检测干音中音量突然变大的点，再辅以纠偏手段，这样基本能判断演唱中每个音符的起始；再根据乐曲风格设置不同长度和权重的得分窗口，只要用户演唱的音符起始点落到窗口内，就视为得分。这样既兼顾了节奏准确，又有了一定的发挥空间。

落点在窗口内距离模板的音符起始点越近，得分就越高 | 参考文献[6]

此外与老方法相比，新方法强调大数据的运用和算法更新，用户的歌声也参与到模型的投喂和训练中。这使得流行音乐依然是各大算法模型评价得最准的项目，而且越多人唱，它评得就越准。

所以下回想挑战机器的评分权威，你最好选首冷门歌曲。

不好听？一键美音走起

更让人欣慰的是，今天的声音娱乐的技术已经发展到，即便你唱歌大跑调，也能一键成天籁，就像某些歌手一样。

这主要通过调整干音的音准、节奏、音色完成。智能修音可以把跑调、杂音的部分修饰掉，除了涉及旋律特征提取和比对，还有节奏对齐、人声变调变速等步骤，让你至少不跑调，跟上拍。

而提升或衰减人声中的不同频段，则能让人声变得悦耳。比如，适宜的40Hz-150Hz低音频段参数，能让人声丰满柔和，150Hz-500Hz中低音频段则与力度、浑厚程度有关，而500Hz-2000Hz的中音频段则能让人声明亮透彻——根据这些发声特点进行调整，再加上混响，原本干涩的录音就能变得圆润丰沛、富有穿透力。

干瘪的声音变圆润 | 作者提供

部分K歌软件甚至声称能基于用户上传的干音音频得到用户音色模型，从而在修音过程中把个人独特的“情感“、“唱法“等也一并模拟（通过上文你应该知道可以如何做到），得到更自然的“裸妆”效果。

不过算法的能力毕竟有限，极端情况下会把人修成洛天依 | 作者提供

柯南的万能变声蝴蝶结也照进现实。说话者身份、性别能被区分，除了依靠基音，主要还因为共振峰分布的差异。对这两者做出改变，我们就可以实现音调和音色的调整。

小黄人和巨人 | 作者提供

正如当初卡拉OK的风靡恰逢经济不景气，在刚度过的疫情三年里，歌唱让人欢乐、让人宣泄，让人找到社会支持，声音修饰也给了更多人展露歌喉的勇气。歌声，逐渐发展出了娱乐以外的社会意义。

而作为普通用户的我，仍旧习惯用歌声自娱自乐，也娱乐他人。至于唱得好听吗？屏幕显示出的那串分数，也许并不那么重要。

参考文献

[1]カラオケ歴史年表http://www.karaoke.or.jp/03nenpyo/#1990%E3%80%9C

[2]王佳迪. 鲁棒的音乐评分方法研究[D].电子科技大学,2015.

[3]Yang, L., Rajab, S. K., & Chew, E. (2016). AVA: A Graphical User Interface for Automatic Vibrato and Portamento Detection and Analysis.

[4]Yang, L. (2017). Computational modelling and analysis of vibrato and portamento in expressive music performance (Doctoral dissertation, Queen Mary University of London).

[5]江益靓. 歌唱气息评分方法及装置:.

[6]K歌中的歌唱评价与嗓音分析https://mp.weixin.qq.com/s/sjSirgHAkGT56AHmoS4zdg

作者：方点点

编辑：睿悦

封面图来源：Giphy

本文来自果壳，未经授权不得转载.

如有需要请联系sns@guokr.com

The End

发布于2023-03-10，本文版权属于果壳网（guokr.com），禁止转载。如有需要，请联系果壳。

举报这篇文章

果壳

果壳网官方帐号