每經編輯:畢陸名
據參考消息13日援引美國趣味科學網站7月10日報道,科學家稱,微軟公司開發的新型人工智慧(ai)語音生成器「達到了與人類相當的水平……但它太危險了,不能公開發布」。
報道稱,vall-e 2是一個文本轉語音(tts)生成器,只需利用幾秒鐘的音頻就能重現說話人的聲音。其效果非常逼真,以至於無法向公眾發布。
微軟研究人員在6月17日發表在預印本文獻庫上的一篇論文中稱,vall-e 2能夠「準確、自然地生成與原說話人完全相同的語音,其生成的語音可與人類相媲美」。換句話說,這一新的ai語音生成器足夠逼真,會讓人誤以為這是真人在說話——至少它的創造者是這麼認為。
圖片來源:視覺中國
微軟研究人員在論文中寫道:「vall-e 2代表著神經編解碼語言模型的最新進展,它標誌著零樣本文本轉語音合成的一個里程碑,並首次達到與人類語音相當的水平。」
論文還說:「此外,vall-e 2能夠始終如一地合成高質量語音,即使是那些傳統上因其複雜性或重複短語而具有挑戰性的句子也不例外。」
研究人員使用語音資料庫librispeech和vctk中的音頻樣本來評估vall-e 2與說話人錄音的相似程度。他們還使用了ella-v(一個用于衡量生成語音的準確性和質量的評估框架)來確定vall-e 2能在多大程度上有效處理更複雜的語音生成任務。
研究人員寫道:「我們基於librispeech和vctk數據集進行的實驗表明,vall-e 2在語音的穩健性、自然度、與說話人相似度方面都超越了之前的零樣本tts系統。它是同類產品中第一個在這些基準上達到與人類相當水平的系統。」
微軟研究人員在一篇博客文章中寫道:「vall-e 2純粹是一個研究項目。目前,我們還沒有將vall-e 2納入產品或向公眾開放的計劃。在模型被濫用方面,它可能存在潛在的風險,比如欺騙語音識別系統或冒充特定的說話人。」
儘管如此,他們確實表示,ai語音技術在未來可能會有實際應用。研究人員稱:「vall-e 2可以合成維持說話人身份的語音,它可被用於教育學習、娛樂、新聞工作、自創內容、無障礙功能、互動式語音應答系統、翻譯、聊天機器人等領域。」
另據公開報道,6月19日,在2024年戛納獅子國際創意節上,特斯拉首席執行官埃隆·馬斯克(elon musk)接受了全球知名營銷服務公司wpp首席執行官馬克·里德(mark read)專訪。在談到「人工智慧是否真的會為我們處理所有事務」時,馬斯克表示:我們不能盲目樂觀或過度悲觀。我非常贊同傑夫·辛頓(jeff hinton,人工智慧教父)的觀點。他認為有10%到20%的可能性會出現一些令人擔憂的情境。然而,我們更應關注那80%的積極可能性。
因此,我認為最有可能的未來是,我們將進入一個物質極度豐富的時代,商品和服務將普及到地球上的每一個人。這不僅僅意味著全民基本收入,而是全民都能享受高收入。工作將變得可選,人們將擁有選擇是否工作的自由。
這樣的前景雖然誘人,卻也可能引發一場有關生命意義的危機。當人工智慧能夠勝任我們所能做的所有工作,甚至做得更好時,我們做事的動機和意義又何在呢?這可能會引發一種存在主義式的困惑,即我們為何還要去做任何事情?
所以,我認為我們正邁向一個前所未有的繁榮時代。同時,我們也正處於歷史上最為有趣的時刻。有句諺語說的好,「願你生活在有趣的時代」,這看似是一種詛咒,但我認為我們正身處於這樣一個時代。我的意思是,即使面對人工智慧可能帶來的最壞結果,即人類被消滅,我也會選擇直面而非逃避。我想,我可能真的願意親眼見證這一切的發展。
每日經濟新聞綜合參考消息、公開消息
每日經濟新聞