“瑪麗有只小羊羔,雪球兒似一身毛…… ”19世紀末,第一臺留聲機問世。這個“會說話的機器”,通過唱針在旋轉圓筒上的螺紋移動,讓聲音得以保存、重現,讓聲音克隆的奇跡轟動世界。
如今,人們想要克隆聲音,已經不再需要留聲機——運用云知聲的“聲音克隆”技術,我們可以采集想要留存的聲音,并經過深度學習算法訓練,模擬出極其類似或幾乎無法區(qū)分的聲音,并將之運用到生活的方方面面。
近日,云知聲“聲音克隆”完成新一輪迭代升級:
一是完成技術升級,魯棒性更高,即在原始錄制質量不是很理想的情況下,也可以穩(wěn)定生成較高質量的合成語音。換句話說,此次升級不僅對錄音質量的要求更低,而且克隆出的聲音質量也將更上一層樓;
二是為滿足對音頻質量要求更高的場景需求,此次升級增加了100句聲音克隆功能。用戶錄制100句音頻,生成的個人音庫較錄制20句音頻合成的效果更逼真、更自然。
三是可根據自定義文本進行語音錄入。簡單來說,過往“聲音克隆”需要用戶按照既定文本進行語音錄入,而現在用戶只需導入一段音頻,即可實現聲音克隆。用戶可根據自己的實際應用需求,輸入更貼合場景的個人音頻,從而實現合成語音與具體場景的深度結合。
伴隨此次“聲音克隆”的迭代升級,云知聲圍繞TTS構建的AI語音“聲”態(tài)得以進一步完善。
成品TTS:為機器裝上“嘴巴”,像人一樣“開口說話”
TTS全稱為“Text-to-Speech”,是一種將文本自動轉換為語音的技術。它利用計算機語音合成技術,將輸入的文本轉化為自然流暢的人類語音輸出。在TTS技術的加持下,機器得以像人類一樣“開口說話”,我們日常生活中的手機語音助手、語音導航播報、有聲閱讀APP都是基于TTS技術實現的。
以智能語音起家的云知聲,面向各個領域提供行業(yè)領先的TTS產品方案。目前,云知聲TTS包含十余種音色和十余種情感風格,可滿足企業(yè)人機對話、短視頻制作、電話客服等多種場景需求。
定制化TTS:玩轉“分身特技”,打造個性化音色
每個人都有自己獨一無二的聲音,不同人的聲音有著不同的語調、不同的尾音,這些聲音就如同每個人的面孔,是我們構成獨特身份的特征。
云知聲“音庫定制”可根據客戶需求,在千句級別的錄音上進行深度定制音色,打造專屬IP發(fā)音人,讓同一個定制音色在不同空間為不同的人提供服務,滿足企業(yè)在市場品牌推廣和產品應用中的語音訴求。
當然,定制化TTS并不專屬于企業(yè)級用戶。為了讓每個普通人都能感受這項技術的魅力,云知聲于今年年初上線“聲音克隆”功能,用戶僅需錄制20句原始音頻,即可合成個人音庫,輕松體驗聲音克隆的樂趣。
此次迭代升級在提高技術穩(wěn)定性的同時,新增自定義文本錄入功能與100句復刻功能,從而克隆出更自然、更逼真、更貼合用戶場景化需求的聲音,可應用于車載導航、兒童點讀機、新聞播報、短視頻配音、智能客服等,讓用戶的聲音在不同場景中煥發(fā)新“聲”。
在AIGC蓬勃發(fā)展的關鍵時期,TTS扮演著重要角色——促進多模態(tài)交互,增強輔助功能,讓機器的語言更逼真、自然、流暢,全面提升用戶體驗。目前,云知聲TTS產品已覆蓋智能客服、語音交互、導航播報等眾多應用場景,并助力廣州地鐵、世茂集團等多家行業(yè)頭部企業(yè)實現AI語音能力的應用與拓展。
未來,伴隨山海大模型能力的持續(xù)拓展,云知聲也將探索大模型與TTS技術的有效結合,持續(xù)為用戶體驗和業(yè)務增長注入創(chuàng)新勢能,以實現更大用戶價值。