今日,獵豹移動董事長兼CEO傅盛在自己的抖音號上發布了一條視頻。作為一名“科技樂觀主義者”,傅盛和世界上的另一個“自己”進行了一場隔空對話。短短幾十秒里,機器人“傅盛”的對答、繞口令樣樣精通。即使是仔細辨別,你也很難確認哪一個才是真正的傅盛。
能夠達到如此驚艷的效果,其實要歸功于獵豹移動旗下人工智能公司獵戶星空研發的語音合成技術。只要聽十段你的話,就可以克隆你的聲音,聽起來是不是很炫酷?


在人機交互的過程中,與用戶體驗感直接相關的,就是語音合成技術。這項技術是將文字轉化為聲音,可以簡單地理解為人類的嘴巴。大家在各種智能語音助手中聽到的聲音,都是由TTS來生成的。所以,讓TTS合成的語音能夠“以假亂真”,正是TTS領域長期以來不斷探索的主題。
傳統的TTS都是怎么做的?
在看獵戶星空如何實現“以小取大”的效果時,我們可以先看看以往的TTS是如何實現的。
傳統的TTS系統通常包括前端、后端兩個模塊。前端模塊主要負責對輸入文本進行分析,提取語言學信息,如果是中文還涉及文本正則化、分詞、詞性預測、多音字消歧、韻律預測等,后端模塊根據前端的分析結果,通過一定的方法生成語音波形。


后端系統的主流技術有兩種,一種是基于統計參數建模的語音合成,或者叫做參數合成、參數法,優點是所需語料庫少,幾千句即可,訓練與合成過程也都可以由程序自動完成,但缺點是語音質量不高,情感韻律平淡。
現在大家地圖導航軟件中的聽到的明星音,針對導航場景錄制了幾千句的語料,不僅聲音生澀感強,而且需要的成本和周期較長,在其他領域的聲音效果不是很好。如果用戶預期不苛刻,這樣一種方式也未嘗不可。


另一種是基于單元挑選和波形拼接的語音合成,或者叫做拼接合成、拼接法,與參數法相反,優點是合成語音自然度很好,缺點就是數據要求太大,至少萬句語料才能滿足商用需求,一些廠商會請聲優為其智能產品錄制語料庫,前后時間長達數月,花費動輒幾百萬。
獵戶星空:十段話合成人聲
魚和熊掌不可兼得,傳統的TTS存在著或多或少的問題。所以這個領域的核心,在于如何降低訓練成本,用更少的語料合成高質量的聲音。
隨著人工智能、深度學習的應用,TTS也迎來了新的變革。2017年3月,Google
提出了一種新的端到端的語音合成系統:Tacotron。它可將接收的輸入字符,輸出成相應的原始頻譜圖,然后提供給Griffin-Lim重建算法生成語音。2017年底,Tacotron
2結合了WaveNet和Tacotron的優勢,不需要任何語法知識即可直接輸出文本對應的語音。
在已有的技術創新鋪墊下,獵戶星空TTS團隊在Tactron的基礎上,訓練了大語料庫的語音庫作為基礎模型,目標發音人只需要錄制10段話,通過Adapt自適應模型,提取出目標發音人的特征,再通過World聲碼器,即可合成出目標發音人音色相同的語音。
所以,這項技術真正落地商用后,將為明星語音、個性化語音的合成帶來重大突破,尤其是很大程度上減少明星音合成的成本、縮短應用研發的周期。
想象一下,以后你的語音助手中住著你喜歡的明星或心愛的人,每天都可以和TA互動聊天,仿佛TA就是你的私人小秘書,是不是有點小激動呢?
除此之外,獵戶星空已掌握麥克風陣列、語音喚醒、語音識別、語義理解和語音合成等全套遠場語音技術,語音交互更快更準,垂直領域深度語義理解正確率96%,還首創了喚醒后人聲回應。
獵戶語音OS成為行業標配
在上文提到技術能力支撐之下,獵戶星空打造了獵戶tts——這個星球最溫暖的AI聲音。目前獵戶語音OS技術已經應用到了小米小愛同學、美的小美AI音箱、喜馬拉雅小雅音箱、獵豹移動小豹AI音箱、華為智能AI音箱等多家合作伙伴產品中,已經成為行業標配。


截至目前,搭載獵戶語音合成技術的智能音箱產品在國內份額已超30%,每天都超過2000萬次語音服務請求,比如小米AI助理小愛同學月活躍設備超過3000萬臺,累計喚醒超50億次。
10月15日,中國人工智能產業發展聯盟(AIIA)在人工智能開發者大會公布了國內智能音箱智能化評級結果,包括獵豹移動、小米、喜馬拉雅、百度、京東在內的五家主流廠商攜其智能音箱產品參與了首批測試評估。獵戶語音OS占據了獲評產品前五強中的三席,支撐起了智能音箱市場的大半壁江山。
結合自身人機交互的產品基因和獵戶星空擁有的行業唯一的全鏈條AI技術,獵豹移動也在不同行業推動人工智能產品的場景化落地。未來,獵豹移動與旗下獵戶星空還會將自主研發的視覺、導航、語音、機械臂技術等核心能力逐步對外開放,與合作伙伴一起,讓機器人產品走進大眾生活。