跨語種音色遷移,出門問問語音大模型挑戰OpenAI

隨著文本大模型技術的崛起,語音合成領域正迅速適應這一變革,基於大模型的語音合成技術因其卓越性能而成為行業趨勢。

儘管傳統語音合成在音質和韻律方面已高度模擬,但在有聲書、自然對話等複雜場景的情感與語調細節上仍有不足。大型語言模型(llm)的興起為彌補這些差距提供了新的可能性,引領語音合成技術向更真實、更自然的交互體驗邁進。

自出門問問發布第一代tts引擎起,歷經多次迭代,語音合成效果不斷趨近「以假亂真」,媲美真人。

出門問問的語音合成技術不斷迭代

自2015年推出初代tts引擎以來,出門問問通過不斷迭代,顯著提升了語音合成的真實度。2019年8月,我們發布了先進的第四代引擎meetvoice,集成至其產品線和tob服務,並在「魔音工坊」中實現上千款聲音的大規模應用,獲得廣泛好評。面對短視頻市場的快速增長和用戶對高模擬語音的需求,我們不斷優化meetvoice引擎,增添了包括停頓調節、高清音質、語調控制等多項功能。

現在,出門問問的自研大模型「序列猴子」取得顯著突破,其以語言為核心的能力體系,涵蓋「知識、對話、數學、邏輯、推理、規劃」六個維度。特別的是,該模型擁有優秀的跨模態知識遷移能力,能夠將語言模型所涵蓋的常識知識有效轉化應用於其他非語言模態的模型當中。基於此技術,開發團隊利用前沿的文本大模型技術構建了一套先進的語音合成系統——meetvoice pro,即出門問問第六代tts引擎。該系統基於序列猴子的文本模型能力,通過對海量語音樣本的深度學習訓練,能夠產生極富自然感和表現力的合成聲音,使ai配音的效果已然接近真實人聲的水準

「序列猴子」賦能語音合成引擎

為了深入理解我們所開發的新一代語音合成引擎的技術要點,讓我們逐步梳理其核心架構。

01語音token化

首先,我們需解決的關鍵問題是將語音信號有效轉化為機器可處理的形式。不同於文本數據的離散特性,語音信號呈現為一種連續波形,這為語音合成引擎帶來了初始的挑戰。針對這一難題,我們採納了行業內廣泛認可的encoder-decoder架構策略,以實現對連續語音信號的有效離散化處理。通過本架構,語音數據首先被分解為一系列離散單元,即所謂的「語音tokens」。這一過程不僅為後續的語音生成打下了堅實基礎,同時也保證了合成語音的自然度和流暢性。

語音編解碼器架構圖

02 對文本及語音token進行建模

在進行文本和語音token的建模過程中,我們自研的大型序列模型「序列猴子」扮演了重要角色。該模型利用其先進的文本基座(underlying textual foundation)能力,實現了對多音字、韻律和上下文關係的深入理解和精準模擬,進而將這些文本屬性有效地映射(或遷移)到語音領域。通過這種方式,「序列猴子」不僅提高了語音token的生成質量,也增強了模型對複雜語音現象的處理能力。

基於大模型「序列猴子」的語音合成框架

三個優勢 促成真實人聲感受

在新框架的支持下,本次的語音合成技術呈現出了三個突出的優勢,在真實性方面獲得了極大的提升。

01自動調節情感和韻律

新技術可以在講述一個悲傷的故事時降低音調,增加柔和度,或者在分享興奮的新聞時提升語速,加強語氣的振奮感。如此智能的調節,讓合成語音的體驗更加自然、富有表現力,仿若置身於真實的人類對話之中。

02聲音克隆僅需數秒

聲音克隆變得異常高效,它能夠快速學習僅數秒鐘的音頻樣本,生成高度逼真的音頻,這樣一來,傳統耗時的錄音過程和訓練過程將成為歷史。例如,我們能夠用埃隆·馬斯克和史蒂夫·喬布斯短暫的原聲錄音,僅需等待數秒,輕而易舉地克隆出非常相似的聲音。

03 跨語種音色遷移

該技術具備強大的跨語言能力,已實現將不同語言的音頻無縫轉換為同音色中文或英文,小語種發音者能夠流暢地使用中文或英文進行交流。比如,我們可以讓一位母語為泰語的女孩使用自己的音色來流利地用英文做自我介紹,用中文背誦古詩。

至臻發音人 適用多個場景

在眾多已上線的發音人中,我們經過優中選優,甄選出一批既獨特又品質出眾的聲音,推薦給廣大內容創作者使用。

01有聲書

02影視解說

03其他特色

限時免費 體驗有禮

1月31日至2月28日期間,「魔音工坊」推出特別活動,至臻發音人系列將對所有svip會員免費開放,非會員用戶可使用cdk兌換碼 aigc2024 免費獲得1天svip會員進行體驗。歡迎點擊以下小程序使用相應發音人。

您在體驗過程中遇到任何問題或意見,均可在公眾號後台即時反饋,我們將隨機贈送參與者1天的svip會員體驗資格。

目前,出門問問 aigc 產品累計服務的用戶數量已超 1200 萬,註冊用戶數量超 800萬,其中付費的用戶數量超 60 萬。據灼識諮詢行業報告,出門問問是亞洲起步最早、收入規模最大的專註於生成式 ai 的人工智慧公司。