比如说,百度地图最近推出的定制语音包功能?
(相关内容见链接:https://www.zhihu.com/question/31524027/answer/903864450)
今年九月,百度地图推出了定制语音包功能以后,收货了很多好评。但是大多数朋友并不知道,这项小小的改动背后有多么复杂的技术,百度的同学们为了它付出了多少精力。
有一些朋友会觉得,不就是个语音包吗?明星不是都录过吗?有这么复杂吗?
嘿,这件事,还真的就挺复杂的。
“录制汤唯语音包的时候,汤唯可是实实在在的录入了两千句语料,用了好几天时间,很辛苦的。”
作为语音定制项目的发起人,际洲说,如果说我们普通人的一生中曾经享受过什么“超明星待遇”的话,个性化语音包的制作绝对可以算得上一个了。
今年9月,百度地图 APP 上线了行业首创的语音定制功能,用户只需要1部手机,录入20句话,大约20分钟就可以拥有一套属于自己的完整的个性化语音包。开车导航、语音交互、旅游讲解……统统可以换成自己的声音!
那么,究竟是什么样的技术,让我们在同一件事的效率上,提升到了明星的百倍呢?
2010年加入百度的际洲,现任百度人工智能技术委员会主席,多年来一直从事自然语言处理、知识图谱等人工智能相关研究工作。
2018年,转岗到百度地图团队的际洲,接到一个很有挑战性的作业:思考如何利用百度强大的 AI 技术,打造新一代人工智能地图。
作为百度地图杰出架构师、百度地图语音项目总负责人,际洲自然而然地想到了语音技术。语音技术是百度在人工智能领域的强项之一,如何借助于强大的语音技术对产品进行创新呢?
很快,际洲找到了一个答案:
“在一次会议上,一名同学说:‘我特别希望有一天我能用语音合成技术,把自己的声音变得逼真,这样我的女儿就能每天都听着我的声音入睡了,不在家的时候也能给她讲故事。’”
这样的技术情怀感染了际洲,不久之后,际洲也升级成为了爸爸,当宝宝七八个月大时第一次喊出“爸爸”时,际洲瞬间理解了同事的感受。
“我当时觉得这就是世界上最美的声音,没有为人父母的时候是很难体会到这种情感的。所以我突然在想,如果以后我开车的时候,导航的声音是我家宝宝该有多好。”
能否通过 AI 技术,为每个人定制一份属于自己的语音包呢?
体会了做爸爸的感受的际洲,从家人的声音中感受到了幸福,也就是在此时,“语音定制功能”的创意在际洲心中开始萌芽。
有了初步的想法后,际洲正式向上级申请,提出了定制地图语音包的想法,也得到了从技术层面具备可行性的肯定答案。
在语音技术方面,百度有独创的百度独创的说话人韵律迁移技术 Meitron,其特点主要体现在发音人音色转换,多情感朗读和韵律风格迁移三个方面,从而让个性化语音合成的定制门槛大大降低。在全球范围内,这项技术的应用都是首次的。
技术上虽然有可行性,但执行起来困难非常多。
首先,定制表情包在过去之所以是“明星专属”,是因为其需要在专业的录音棚里录制大量语料,制作时间长达几个月。
而要完成际洲的这个想法,需要用用户的手机作为录音工具,市场上的手机型号千差万别,录音环境也不确定,怎么保证用户上传的语料信息是合格的呢?
更重要的是,能否彻底颠覆过去需要录制几千句语料才能制作语音包的高门槛,改进成只需要用户录制寥寥数句语料即可生成出与发音人声音高度逼真的语音包?际洲及项目组的同学们自己心里也没底。
方向明确后,项目组成员们分头从技术和产品层面行动,各自调研、各自开发,同时相互同步、相互支持。在确认产品 demo 的效果后,大家定下了发布会的时间,倒逼着所有人去推进。
负责语音技术的同学们,为了赶进度顶着压力夜以继日,事后在开庆功会的时候,大家分享了共同的心路历程:“既然答应了际洲,每次推进中遇到搞不定或者难度太大的问题,就会想到说承诺的事情得做到才行。”
在经历了技术与产品之间的反复权衡后,项目组最终确认了用户需要上传的语料数量——20句,而且都是几秒钟的短句,在几分钟内就可以录完。为了测试这项产品,项目组的同学们找了身边好多人来测试实际效果。
际洲印象最深也是最成功的一次“用户内测”,发生在自己家里。
为了验证生成的语音到底像不像,际洲一次下班回家时直接带上了接近发布版本的产品。因为老婆忙着带娃,际洲就找岳父帮忙录了一个语音包。
切换语音包的瞬间,房间里响起了际洲岳父语音包的声音——“定制语音包设置成功”,这句话话音还没落,家里不到两岁的宝宝立马喊了一句“姥爷~”。
“我当时就觉得这个事儿成啦,这么小的宝宝也不会说谎,一定是真的认出了姥爷的声音。”提起自家宝宝的真实用户反馈,作为项目负责人的际洲还是开心得不行。
事实上,觉得语音包很逼真的用户,不只是际洲家里的小宝宝。在后来的大规模内测中,大家的打分也证实定制语音包的逼真度已经超过了90%。这样的数据,让项目组的同学们也一下子有信心了,踏实了。
语音定制功能正式上线后,同学们的心思就牢牢被用户反馈拴住了,到底产品好不好用,到底还是要用户投了票才最安心。
从朋友圈、百度地图和其他渠道,大家很快收到了大量的用户反馈,有亲近的朋友,也有不认识的陌生人。
一位百度同学的留言最让际洲感动。这位同学分享说,自己妈妈之前不敢单独开车上高速,趁着这次国庆节回家,他用自己的声音给妈妈录了一个语音包,妈妈竟然勇敢地上路开车了,说“用了这个导航就像儿子在旁边指路一样,有了上高速的勇气,不怕了”。
“我其实都没想到过还可以这么用。”际洲感慨说,“这些真真实实的用户反馈,对我是特别大的认可和激励,怎么说呢,那一瞬间的美好感受是其他任何奖励都无法比拟的。”
际洲在语音定制项目中的角色,用他自己的话说就是「梦想制造家」:给大家画了一个蓝图,告诉大家我们可以做成什么,怎么一步步去执行。
“概括地说,我们干的事情就是技术驱动的差异化产品创新体验。”
实现梦想的过程中,每一个参与成员的角色和作用都很重要。语音技术、地图、市场,法务,以及来自 PM、UE、OP、QA、运营、系统部、AI 技术生态部、安全部等团队的同学们,稳稳地组建起了一个靠谱的战队。
最重要的是,战斗力是会传染的。从上游到下游,每一部分的负责同学,都在把最好的一环往下传,这是对彼此最好的鼓励和打气,最终把最好的结果传给用户,也是大家肩负的最大责任。
“真实的测试情况下,意想不到的困难会源源不断地袭来,这个时候需要的就是无条件地信任,谁都不甩锅不后退,一起想办法解决。”
还有一个消息偷偷地透露给大家,这群“靠谱”的百度人,还在继续完善他们的产品哦!
在未来,我们也许不仅能定制语音包,还能定制语音包主人和车主的关系!打个比方——那些用自家宝宝语音包的爸爸们,启动导航时听到的就不是“导航开始”了,而是超萌的“爸爸咱们出发吧!”
在我们不知不觉中,AI 对生活的改变正在慢慢发生。
AI 开始让一切都逐渐变得有温度,当孩子甜甜的声音响起时,谁还能仅仅把百度地图当作一件工具呢?当高科技的产品与家人朋友联系到一起时,会不会给我们的生活增加一抹温柔呢?