如何寻找一款变声软件

最近在为一个桌面角色扮演游戏备团，但本人对于声音的控制很单一，尤其是对于女声等反差大的声音无法驾驭。还好这次是一个网团，所以可以利用~~先进的科技~~变声器来弥补自身的不足。

由于精力有限，本人只试用了以下几款变声软件，有AI的和传统的：

总的来说个人比较推荐iMyPone MagicMic，内含传统和AI变声，缺点是需要$50美金的购买费，但延迟和模型的容错度都是相对最好的。如果本身已经有较好的显卡，比如3080，也可以搭建RVC的AI模型，这里推荐一个傻瓜版的整合包，内置多款变声，缺点就是模型加载速度慢，低配电脑会有很高的延迟。

其它试过的软件也一一做个对比：

这款界面和MagicMic非常像，价位也相当，不知道是谁抄谁的。但是其中的变声器（不知道是不是版权的原因）都比较单调，AI变声也是以名人变声为主，对中文的识别也不是很精确。总之没有留下特别的印象。

这款也是主打AI的变声器，但界面让人和困惑，研究半天也不知道该如何变音，就直接卸载了。

这也是AI变声，是开源免费的模型，需要自带显卡搭载对应模型。当然AI变声相对传统变声有以下缺点：

噪音也会变成对应的语音，比如键盘声会变成奇怪的哼音。需要有降噪处理，方可达到最佳效果。
过高和过低的音无法处理。过高会破音，过低会无视掉。可以通过保持正常的说话方式来避免。
失真。这里是指情感语气上的失真，就是不能很好的转化原音的语气。毕竟好多模型是先转化为文字，在合成语音的，所以这个是技术问题，无法很好的避免。
与上一条类似，发音不清或者口胡的语音，无法准确转化。这点可以通过特有的模型来把角色的口胡特性带入，比如小黄人的AI变声模型。缺点是无法实时的利用发音不清的效果来展现角色的小心思。
延迟过高。好的显卡也需要100ms的延迟，再加上网络延迟，就会有明显的停顿，尤其是要变现吉列争论的情景时，会很出戏。
模型加载速度慢。也就是说如果中途想换声音，需要有5-10s的间隔。可能好一些的显卡可以快一些。而且感觉这个是可以从技术层面来解决的，比如把不同语音变化层都加载进显卡内存中，这样在推理的过程中来选择对应的声音层，从而减少每次模型的从新加载。也可能自己把这块想简单了，因为可能每个模型的架构也不同，比如上面所说的语音转文字再转语音这种，可能无法和语音转语音这种模型融合。

但其也有一个特别的优点，就是可以通过少量高质音频（10分钟，纯语音，无背噪）来训练一个较好的模型。这也就是说可以将各种影视，视频，播客中的声音提取出来，变成个人的变声器（但请注意版权）。

很像传统变声器的一款软件，内置多款变声配置，但感觉效果不好，可能比较适合专门训练过声线的人们使用。

这个本身不是一个变声软件，而是用来做混音和声效后期的。但其中提供了多款插件，可以用来支持传统的变声。这里有个视频可以很好的讲解如何使用Studio One来进行机架的设置。

前面讲了AI变声的缺点，这里也讲一下传统变声的缺点吧：

设置复杂。如果想不训练嗓子，就输出理想的声音的话，需要对插件进行复杂的设置。
需要相应发声训练支持。即使有了很好的配置，要达到理想的效果仍然需要做相应的发声训练。
领域混乱。很多商家以此牟利，会在广告视频中作假，让人以为是真实的软件效果，其实是真人发音的后期合成。所以无法得知一款插件的效果是否适合自己。
学习成本高。不单需要练习声线，还需要学会软件的使用，以及插件的参数，甚至还要有些关于声波的物理知识，比如频率，分贝等。对于非从事影音领域的人来说，需要花费不少时间精力来学习。
电流音。这个跟插件及其配置有关，但会给人一种很假的感觉。
无商业需求。变声这个需求量在专业的影音领域很小，有专门的男声女声，所以无需通过变声来满足需要。

总而言之，以上就是我最近对于变声器的研究，用来记录一下，希望能为大家提供一些帮助。

订阅评论

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

0 评论

最多投票