每經編輯:杜宇,宋欣悅
5月21日,著名影星斯嘉麗·約翰遜(scarlett johansson)指控openai的chatgpt,非法使用其聲音並要求下架,表示對openai的行為感到「震驚」和「憤怒」。對此,openai回應稱,將暫停使用「sky」模式的聲音,並詳細介紹了語音選擇的創作流程,強調所有配音均來自專業演員。
此前,openai推出新旗艦模型gpt-4o,該模型在保留了之前的五種語音模式的基礎上,大大提升了圖像和音頻理解方面的能力,能夠進行實時語音通信,可以識別音調、說話的人和背景噪音,甚至可以輸出笑聲、歌唱聲和表達情感。
圖片來源:x
斯嘉麗怒懟chatgpt語音模式:山寨!
5月21日,斯嘉麗·約翰遜在社交平台髮長文指控openai非法使用她的聲音,要求下架「sky」模式。她表示,這種行為不僅侵犯了她的權利,還引發了公眾對ai技術濫用的擔憂。
斯嘉麗在其長文中透露,早在2023年9月,openai曾聯繫她,希望她為chatgpt的語音模式配音,但因個人原因她拒絕了這個邀請。就在產品發布會前兩天,openai再次嘗試說服她配音,依舊遭到拒絕。然而,斯嘉麗在最終發布的產品中發現「sky」模式的聲音與她本人非常相似。她表示,自己聽到演示後,感到震驚、憤怒和難以置信,無法相信openai竟會使用一個如此像她的聲音,連她的親密朋友和新聞媒體都分辨不出sky和她本人聲音的差別。
圖片來源:x
此外,斯嘉麗提到,openai首席執行官薩姆·阿爾特曼(sam altman)在gpt-4o發布時,在社交平台上只發了一個詞「her」,不禁讓人聯想到,斯嘉麗在2013年科幻ai電影《her》中為女主ai配音的經歷,是否在暗示這種相似是故意為之?
圖片來源:x
斯嘉麗強調,「在這個我們都在努力應對深度偽造,保護自身形象、作品和身份的時代,我認為這些問題需要得到絕對的明確。我期待通過透明度和立法來解決這些問題,以確保個人權利得到保護。」
面對指控,openai迅速做出反應,宣布暫停使用「sky」模式的聲音。他們在官網上詳細介紹了chatgpt語音模式的創作流程,強調所有聲音都是從400多名專業配音演員中挑選出來的,並經過嚴格的審核。
openai的官方聲明中提到:「我們收到了關於chatgpt選取聲音方式的一些質疑,尤其是針對「sky」。目前,我們正積極採取措施,暫停「sky」的使用,以解決這些問題。」
gpt-4o:對話式ai的巨大飛躍
此前,chatgpt的語音模式包括breeze、cove、ember、juniper和sky五種聲音。這些聲音是經過精心挑選,以滿足用戶的多樣化需求。每種聲音都擁有獨特的情感和聲音特質,為用戶提供了更加豐富的交互體驗。
而最新發布的gpt-4o版本不僅保留了之前的五種語音模式,還進一步提升了語音交互的自然度和情感表達能力。gpt-4o在語音識別和生成方面進行了多項改進,使得ai助手更加智能和人性化。
據介紹,新模型使chatgpt能夠處理50種不同的語言,同時提高了速度和質量。
gpt-4o是邁向更自然人機交互的一步,它可以接受文本、音頻和圖像三者組合作為輸入,並生成文本、音頻和圖像的任意組合輸出,「與現有模型相比,gpt-4o在圖像和音頻理解方面尤其出色。」
在gpt-4o之前,用戶使用語音模式與chatgpt對話時,gpt-3.5的平均延遲為2.8秒,gpt-4為5.4秒,音頻在輸入時還會由於處理方式丟失大量信息,讓gpt-4無法直接觀察音調、說話的人和背景噪音,也無法輸出笑聲、歌唱聲和表達情感。
與之相比,gpt-4o可以在232毫秒內對音頻輸入做出反應,與人類在對話中的反應時間相近。在錄播視頻中,兩位高管做出了演示:機器人能夠從急促的喘氣聲中理解「緊張」的含義,並且指導他進行深呼吸,還可以根據用戶要求變換語調。
圖片來源:截圖於youtube
圖像輸入方面,演示視頻顯示,openai高管啟動攝像頭要求實時完成一個一元方程題,chatgpt輕鬆完成了任務;另外,高管還展示了chatgpt桌面版對代碼和電腦桌面(一張氣溫圖表)進行實時解讀的能力。
圖片來源:截圖於youtube
openai稱,「我們跨文本、視覺和音頻端到端地訓練了一個新模型,這意味著所有輸入和輸出都由同一神經網路處理。由於gpt-4o是我們第一個結合所有這些模式的模型,因此我們仍然只是淺嘗輒止地探索該模型的功能及其局限性。」
每日經濟新聞