最近在为一个桌面角色扮演游戏备团,但本人对于声音的控制很单一,尤其是对于女声等反差大的声音无法驾驭。还好这次是一个网团,所以可以利用先进的科技变声器来弥补自身的不足。
由于精力有限,本人只试用了以下几款变声软件,有AI的和传统的:
- iMyPone MagicMic
- 各类RVC换皮软件
- VoiceMod
- Voice.ai
- Voxal Voice Changer
- Studio One + 各类插件
总的来说个人比较推荐iMyPone MagicMic,内含传统和AI变声,缺点是需要$50美金的购买费,但延迟和模型的容错度都是相对最好的。如果本身已经有较好的显卡,比如3080,也可以搭建RVC的AI模型,这里推荐一个傻瓜版的整合包,内置多款变声,缺点就是模型加载速度慢,低配电脑会有很高的延迟。
其它试过的软件也一一做个对比:
VoiceMod
这款界面和MagicMic非常像,价位也相当,不知道是谁抄谁的。但是其中的变声器(不知道是不是版权的原因)都比较单调,AI变声也是以名人变声为主,对中文的识别也不是很精确。总之没有留下特别的印象。
Voice.ai
这款也是主打AI的变声器,但界面让人和困惑,研究半天也不知道该如何变音,就直接卸载了。
RVC
这也是AI变声,是开源免费的模型,需要自带显卡搭载对应模型。当然AI变声相对传统变声有以下缺点:
- 噪音也会变成对应的语音,比如键盘声会变成奇怪的哼音。需要有降噪处理,方可达到最佳效果。
- 过高和过低的音无法处理。过高会破音,过低会无视掉。可以通过保持正常的说话方式来避免。
- 失真。这里是指情感语气上的失真,就是不能很好的转化原音的语气。毕竟好多模型是先转化为文字,在合成语音的,所以这个是技术问题,无法很好的避免。
- 与上一条类似,发音不清或者口胡的语音,无法准确转化。这点可以通过特有的模型来把角色的口胡特性带入,比如小黄人的AI变声模型。缺点是无法实时的利用发音不清的效果来展现角色的小心思。
- 延迟过高。好的显卡也需要100ms的延迟,再加上网络延迟,就会有明显的停顿,尤其是要变现吉列争论的情景时,会很出戏。
- 模型加载速度慢。也就是说如果中途想换声音,需要有5-10s的间隔。可能好一些的显卡可以快一些。而且感觉这个是可以从技术层面来解决的,比如把不同语音变化层都加载进显卡内存中,这样在推理的过程中来选择对应的声音层,从而减少每次模型的从新加载。也可能自己把这块想简单了,因为可能每个模型的架构也不同,比如上面所说的语音转文字再转语音这种,可能无法和语音转语音这种模型融合。
但其也有一个特别的优点,就是可以通过少量高质音频(10分钟,纯语音,无背噪)来训练一个较好的模型。这也就是说可以将各种影视,视频,播客中的声音提取出来,变成个人的变声器(但请注意版权)。
Voxal Voice Changer
很像传统变声器的一款软件,内置多款变声配置,但感觉效果不好,可能比较适合专门训练过声线的人们使用。
Studio One
这个本身不是一个变声软件,而是用来做混音和声效后期的。但其中提供了多款插件,可以用来支持传统的变声。这里有个视频可以很好的讲解如何使用Studio One来进行机架的设置。
前面讲了AI变声的缺点,这里也讲一下传统变声的缺点吧:
- 设置复杂。如果想不训练嗓子,就输出理想的声音的话,需要对插件进行复杂的设置。
- 需要相应发声训练支持。即使有了很好的配置,要达到理想的效果仍然需要做相应的发声训练。
- 领域混乱。很多商家以此牟利,会在广告视频中作假,让人以为是真实的软件效果,其实是真人发音的后期合成。所以无法得知一款插件的效果是否适合自己。
- 学习成本高。不单需要练习声线,还需要学会软件的使用,以及插件的参数,甚至还要有些关于声波的物理知识,比如频率,分贝等。对于非从事影音领域的人来说,需要花费不少时间精力来学习。
- 电流音。这个跟插件及其配置有关,但会给人一种很假的感觉。
- 无商业需求。变声这个需求量在专业的影音领域很小,有专门的男声女声,所以无需通过变声来满足需要。
总而言之,以上就是我最近对于变声器的研究,用来记录一下,希望能为大家提供一些帮助。