国产无码免费,人妻口爆,国产V在线,99中文精品7,国产成人无码AA精品一,制度丝袜诱惑av,久久99免费麻辣视频,蜜臀久久99精品久久久久久酒店
        訂閱
        糾錯
        加入自媒體

        伯克利提出超輕量級聲碼器SqueezeWave: Mini身材, Maxi速率

        2020-08-07 09:50
        將門創投
        關注

        自動語音合成對于眾多智能應用十分重要,其中聲學特征轉換為音頻輸出的聲碼器在語音合成過程中具有十分重要的作用。雖然WaveGlow可以實現并行化的語音合成,但其龐大的計算量使得本地和邊緣設備無法承受,基于云計算的語音合成使得網絡延時和用戶隱私問題無法有效解決。

        為了解決語音合成中計算效率的問題,來自加州大學伯克利分校的研究人員提出了一種超輕量級的聲碼器模型SqueezeWave,通過對WaveGlow的結構和計算方法進行優化大幅提升了模型計算效率,相較于WaveGlow減小了61-214倍的計算量,在眾多邊緣設備上——甚至是樹莓派上——都能有效部署實現高效的實時語音合成。

        一、TTS從云端向邊緣

        從車載地圖應用到語音助手,眾多設備都開始采用了豐富的語音交互技術來處理各種任務。但想要得到高質量的文本到語音轉換,需要復雜的機器學習模型和龐大的云計算資源支撐。但隨著硬件的發展,邊緣設備的計算能力大幅提升使得語音合成模型在本地運行成為可能。其次消費者對于隱私的擔憂與日俱增,在移動端運行機器學習模型消除用戶數據向云端泄漏的威脅。此外隨著消費者對于語音助手的依賴逐漸加深,對于用戶體驗的關注也逐漸增加。為了提供低延時的語音服務,降低網絡連接質量帶來的影響,本地運行的語音合成模型比云端模型更有優勢。

        典型的現代語音合成模型主要包含兩個部分:合成器和聲碼器。其中合成器用于從文字輸入生成聲學特征,而后利用聲碼器從聲學特征生成波形輸出,F存的高質量語音合成器都需要消耗十分可觀的計算資源,SqueezeWave的主要目的在于提升合成器的效率。例如WaveNet及其變體基于自回歸的方法,意味著每一個生成的樣本都依賴于先前的樣本,這種串行的處理方式阻礙了硬件的并行加速;而基于流的WaveGlow可以在每一次前傳中生成許多樣本,雖然這一方法具有并行優勢但卻需要消耗十分巨大的計算量。例如生成1s22kHz的語音需要消耗229G MACs的計算量,遠遠超過了移動端處理器所能承受的范圍。盡管WaveFlow可以在最新的V100顯卡上達到超過實時的性能,但卻不適合在邊緣設備部署。

        在這篇論文中研究人員提出了一種輕量級的基于流的聲碼器SqueezeWave用于邊緣設備的語音合成。研究人員重新設計了WaveGlow的架構,通過重整音頻張量、采用深度可分離卷積以及相關優化使其比WaveGlow少消耗61-214倍的計算量,可在筆記本端實現每秒123-303K樣本的生成,在樹莓派上3B+上也能實現15.6K的實時水平。

        二、重新審視WaveGlow的計算復雜度

        與直接進行卷積操作不同,WaveGlow首先將鄰近的樣本聚類構建多通道的輸入,其中L為時域維度的長度,Cg為每個時間步上的聚類組合的樣本數量。波形中的樣本總數量為.波形隨后被一系列雙邊映射進行轉換,其中每一個都會利用的輸入得到輸出。在每個雙邊映射中,輸入信號首先被可逆的逐點卷積處理,而后將結果沿通道拆分為和。其中被用于計算仿射耦合系數。其中將被應用于的后續計算。而則為類似wavenet的函數,為編碼音頻的梅爾譜Lm為梅爾譜的時間長度,Cm為頻率分量的數目。隨后仿射變換層將通過下式計算:其中代表逐元素相乘。最終將在通道方向上組合得到最后的輸出。

        WaveGlow最主要的計算量來自于WN函數,其計算流程如上圖所示。輸入首先通過逐點卷積進行處理(圖中start),卷積使得的通道數從增加到非常大的數目,在WaveGlow中start的輸出維度為256維。隨后核為3的一維膨脹卷積將繼續對上述結果進行處理(圖中in_layer所示)同時梅爾譜也被饋入到網絡中。由于梅爾譜的時域長度遠小于波形長度,所以需要對其進行上采樣來進行維度匹配。

        而后in_layer和cond_layer輸出按照WaveNet的方式通過門函數進行合并,隨后傳輸到res_skip_layer。其輸出長度為L=2000,通道數為512.隨后將按照通道拆分為兩部分。這一結構將重復八次,并在最后的res_skip_layer輸出與end進行逐點卷積,計算出轉換因子

        并將通道從512壓縮到8。在WaveGlow的源碼中,每秒的計算量為229G MACs,其中in_layer占據了47%,cond_layer占據了39%, res_skip_layer則為14%。這對這樣的情況,研究人員將對原始的網絡結構進行改進以減少計算量提高計算效率。

        1  2  下一頁>  
        聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

        發表評論

        0條評論,0人參與

        請輸入評論內容...

        請輸入評論/評論長度6~500個字

        您提交的評論過于頻繁,請輸入驗證碼繼續

        暫無評論

        暫無評論

          人工智能 獵頭職位 更多
          掃碼關注公眾號
          OFweek人工智能網
          獲取更多精彩內容
          文章糾錯
          x
          *文字標題:
          *糾錯內容:
          聯系郵箱:
          *驗 證 碼:

          粵公網安備 44030502002758號

          主站蜘蛛池模板: 国产高清A片| 亚洲精品mv免费网站| 日日夜夜噜噜| 人妻少妇久久| 日本亚洲国产| 熟女免费| 另类av| 亚洲天堂中文| 2022亚洲无码| 台安县| 亚州九九久久| 中文字幕第4页| 9191久久| AV色综合| 超碰免费人妻| 丝袜福利导航| 浦北县| 人妻中文第二页| 内射网址| 黑山县| 91亚洲色图| 亚洲日本91| 国产乱子伦日B视频| 丝袜.制服.丝袜.亚洲.日韩.中文 国产制服丝袜在线视频 | 久热中文| 衡水市| 屁屁影院国产第一页| 一区二区三区精品| 久荜中文字幕| jizzjizz欧美| 999白浆| 隆尧县| 3p无码| 成人av天堂| 久久精品中文字幕| 91黑丝视频| 亚洲?日韩?丝袜?熟女| av一区二区三区| 中文字幕第56页| 虹口区| 国产I熟女l国产.熟女视频|