百科问答小站 logo
百科问答小站 font logo



如何看待米哈游逆熵科技AI生成的鹿鸣声音? 第1页

  

user avatar   jiayu2dai 网友的相关建议: 
      

ai生成声音和ai生成声音是不同的。就好像自行车和布加迪威龙都是车,但技术路线,复杂度,安全水平等各个方面完全不同一样。

我们从目的来分析,ai生成声音的目的是将一段文字,生成成声音。而按照主流技术路线,实现该目的的模块主要有两个——

一:将文字生成成声音特征。

二:将特征生成成声音。

其中,第二个模块是非常成熟的。lpcnet就是个比较不错的声码器,玩通这个模块只需要一个本科毕业生的水平就够了。这个不用多说,技术难点肯定不在这里(虽然他们做的并不好,只是没被发现而已。如43秒的“公主美丽善良”,弄成了“公主美一啥痒”但侧面证实了这是真ai,不是人手修音出来的,不然这么大的问题不可能没人发现)

难点在于,如何将文字生成成声音特征。特征是什么?特征一般包含了共振峰信息和音高。不懂的也不用深究,总之共振峰信息比较简单生成,你甚至可以用码本来完成。

音高信息则比较难。如果是一个字,那么很简单,音高设为一个正常女声的音高就行了。但要一句话,有音高起伏,有连续性,让人感觉到自然,那是很难的。wavenet这种快十年没有一点质量进步的模型更不用考虑了,肯定不是。

从产品的角度上来说,这是一款抓住用户痛点的产品。从技术的角度上来说,如果这段音频是输入文字得到共振峰信息,然后手动加入音高信息,然后放入声码器输出人声,那技术含量是较低的。如果是输入文字信息和起始音高,自动得到共振峰信息和音高信息,然后声码器输出人声,那么这个技术是逆天的。要真有这么个东西,我工作不做了,直接去他们公司把源码偷出来,坐牢都愿意。

其中有两句学猪叫,这属于清音。汉语中是没有纯粹的清音的。因此清音是没有办法通过自动生成的特征得来的。我认为这个ai还是技术含量不高的那一类。




  

相关话题

  《原神》第二次海灯节「飞彩镌流年」已开启,你的体验如何?对比去年的海灯节有何不同? 
  如何评价《原神》1.5 版本「玉扉绕尘歌」? 
  历史上有哪些曾经社会地位很高的职业由于科技的进步被淘汰?淘汰后的失业人员又是何去何从呢? 
  我秋招米哈游角色设计有戏么? 
  网传华为等公司尝试阻止英伟达收购 ARM,这一收购对华为等公司的影响会有多大? 
  对于人类的未来而言,星辰大海和虚拟现实,哪个才是更有意义的发展方向? 
  如何看待游戏《原神》新剧情 PV -「人间至味」? 
  如何评价荣耀脱离华为后发布的首款新品V40?你看好独立后的荣耀吗? 
  如何看待米哈游逆熵科技AI生成的鹿鸣声音? 
  吴京、华为、原神、白象。。。为什么被有些人骂? 

前一个讨论
请问机器学习中的预测与决策的区别是什么,他们的界限在哪里呢?
下一个讨论
半导体器件和材料研究生方向哪个更好?





© 2025-03-25 - tinynew.org. All Rights Reserved.
© 2025-03-25 - tinynew.org. 保留所有权利