斯嘉麗怒斥OpenAI：山寨我的聲音！連朋友都分辨不出來

2024-05-21 15:01:29 娛樂頭條 5775℃

每經編輯：杜宇,宋欣悅

5月21日，著名影星斯嘉麗·約翰遜（scarlett johansson）指控openai的chatgpt，非法使用其聲音並要求下架，表示對openai的行為感到「震驚」和「憤怒」。對此，openai回應稱，將暫停使用「sky」模式的聲音，並詳細介紹了語音選擇的創作流程，強調所有配音均來自專業演員。

此前，openai推出新旗艦模型gpt-4o，該模型在保留了之前的五種語音模式的基礎上，大大提升了圖像和音頻理解方面的能力，能夠進行實時語音通信，可以識別音調、說話的人和背景噪音，甚至可以輸出笑聲、歌唱聲和表達情感。

圖片來源：x

斯嘉麗怒懟chatgpt語音模式：山寨！

5月21日，斯嘉麗·約翰遜在社交平台髮長文指控openai非法使用她的聲音，要求下架「sky」模式。她表示，這種行為不僅侵犯了她的權利，還引發了公眾對ai技術濫用的擔憂。

斯嘉麗在其長文中透露，早在2023年9月，openai曾聯繫她，希望她為chatgpt的語音模式配音，但因個人原因她拒絕了這個邀請。就在產品發布會前兩天，openai再次嘗試說服她配音，依舊遭到拒絕。然而，斯嘉麗在最終發布的產品中發現「sky」模式的聲音與她本人非常相似。她表示，自己聽到演示後，感到震驚、憤怒和難以置信，無法相信openai竟會使用一個如此像她的聲音，連她的親密朋友和新聞媒體都分辨不出sky和她本人聲音的差別。

圖片來源：x

此外，斯嘉麗提到，openai首席執行官薩姆·阿爾特曼（sam altman）在gpt-4o發布時，在社交平台上只發了一個詞「her」，不禁讓人聯想到，斯嘉麗在2013年科幻ai電影《her》中為女主ai配音的經歷，是否在暗示這種相似是故意為之？

圖片來源：x

斯嘉麗強調，「在這個我們都在努力應對深度偽造，保護自身形象、作品和身份的時代，我認為這些問題需要得到絕對的明確。我期待通過透明度和立法來解決這些問題，以確保個人權利得到保護。」

面對指控，openai迅速做出反應，宣布暫停使用「sky」模式的聲音。他們在官網上詳細介紹了chatgpt語音模式的創作流程，強調所有聲音都是從400多名專業配音演員中挑選出來的，並經過嚴格的審核。

openai的官方聲明中提到：「我們收到了關於chatgpt選取聲音方式的一些質疑，尤其是針對「sky」。目前，我們正積極採取措施，暫停「sky」的使用，以解決這些問題。」

gpt-4o：對話式ai的巨大飛躍

此前，chatgpt的語音模式包括breeze、cove、ember、juniper和sky五種聲音。這些聲音是經過精心挑選，以滿足用戶的多樣化需求。每種聲音都擁有獨特的情感和聲音特質，為用戶提供了更加豐富的交互體驗。

而最新發布的gpt-4o版本不僅保留了之前的五種語音模式，還進一步提升了語音交互的自然度和情感表達能力。gpt-4o在語音識別和生成方面進行了多項改進，使得ai助手更加智能和人性化。

據介紹，新模型使chatgpt能夠處理50種不同的語言，同時提高了速度和質量。

gpt-4o是邁向更自然人機交互的一步，它可以接受文本、音頻和圖像三者組合作為輸入，並生成文本、音頻和圖像的任意組合輸出，「與現有模型相比，gpt-4o在圖像和音頻理解方面尤其出色。」

在gpt-4o之前，用戶使用語音模式與chatgpt對話時，gpt-3.5的平均延遲為2.8秒，gpt-4為5.4秒，音頻在輸入時還會由於處理方式丟失大量信息，讓gpt-4無法直接觀察音調、說話的人和背景噪音，也無法輸出笑聲、歌唱聲和表達情感。

與之相比，gpt-4o可以在232毫秒內對音頻輸入做出反應，與人類在對話中的反應時間相近。在錄播視頻中，兩位高管做出了演示：機器人能夠從急促的喘氣聲中理解「緊張」的含義，並且指導他進行深呼吸，還可以根據用戶要求變換語調。

圖片來源：截圖於youtube

圖像輸入方面，演示視頻顯示，openai高管啟動攝像頭要求實時完成一個一元方程題，chatgpt輕鬆完成了任務；另外，高管還展示了chatgpt桌面版對代碼和電腦桌面（一張氣溫圖表）進行實時解讀的能力。

圖片來源：截圖於youtube

openai稱，「我們跨文本、視覺和音頻端到端地訓練了一個新模型，這意味著所有輸入和輸出都由同一神經網路處理。由於gpt-4o是我們第一個結合所有這些模式的模型，因此我們仍然只是淺嘗輒止地探索該模型的功能及其局限性。」

每日經濟新聞

標籤：娛樂頭條

上一篇：「感覺被騙了！」，歌迷吐槽周杰倫演唱會

下一篇：直播預告 | 這場「雲上逆行者」的聚會，等你來看！