「有眼睛、有耳朵、有嘴巴」的AI?OpenAI最新發佈!

娛樂頭條 6530℃

中新網5月14日電(中新財經 吳家駒)不是gpt-5,而是gpt-4o。

北京時間5月14日,研發chatgpt的openai公司,推出了具備「聽、看、說」能力的gpt-4o。

openai網站稱,gpt-4o的「o」代表「omni」。在英語中「omni」常被用作詞根,用來表示「全部」或「所有」的概念。

該公司首席執行官山姆·奧特曼(sam altman)此前已預告,最新發佈的產品「不是gpt-5,不是搜索引擎,但我們一直在努力開發一些我們認為人們會喜歡的新東西」。

據介紹,gpt-4o可以實時對音頻、視覺和文本進行推理,接受文本、音頻和圖像的任意組合輸入,並生成文本、音頻和圖像的任意組合輸出。

openai稱,gpt-4o可以在短至232毫秒的時間內對音頻輸入做出反應,平均反應時間為320毫秒,這與人類在對話中的反應時間相近。此外,它在英語和代碼文本方面的性能與gpt-4 turbo相當,在非英語語言文本方面也有顯著提高。同時在api(應用程序接口)方面,速度更快,成本也降低了50%。

現場,openai展示了gpt-4o的多個應用場景。

例如,在一個演示中,openai前沿研究負責人馬克·陳(mark chen)通過手機與chatgpt進行對話。chen和chatgpt說,他正在進行演示有些緊張,於是chatgpt就「像朋友一樣」,對他進行了安慰。同時,chatgpt還能從chen急促的喘氣聲中,聽出他的緊張,然後對他說「慢一點。mark,你不是吸塵器。吸氣,然後數到四。」

「有眼睛、有耳朵、有嘴巴」的AI?OpenAI最新發佈! - 陸劇吧

gpt-4o檢測人的表情。圖自x平台

在另一個演示中,openai後訓練團隊負責人巴雷特·佐夫(barret zoph)把自己的臉對着鏡頭,讓gpt-4o看看自己的情緒如何。在演示的過程中,zoph先打開了手機的後置攝像頭,拍到了木質桌面,於是chatgpt說,「我看到的好像是木質表面。」而讓chatgpt再試一次後,chatgpt對zoph說,「你看起來很開心,笑容燦爛,也許還有一絲興奮。」

同時,openai還在官網發佈了一系列演示視頻:gpt-4o可以幫助學習數學、學習西班牙語、準備面試,可以通過畫面判斷出你正在過生日,然後給你唱生日快樂歌,可以根據要求唱不同風格的催眠曲,甚至還可以當「石頭剪刀布」的裁判。而在這些視頻中,gpt-4o與演示者的對話流暢,說話語氣就「像真人一樣」。

有網友表示,根據目前展示的視頻來看,gpt-4o在語音交互體驗上提升了不少。有網友認為,gpt-4o對算力的需求更大了。也有網友提出,既然gpt-4o具備了「視覺」,它是否可以代替盲人看世界。

openai稱,通過gpt-4o,公司跨文本、視覺和音頻端到端地訓練了一個新模型,這意味着所有的輸入和輸出都由同一個神經網絡處理。由於gpt-4o是openai第一個結合了所有這些模式的模型,因此公司在探索該模型的功能及其局限性方面仍處於起步階段。

對此,山姆·奧特曼在社交媒體表示,最初的chatgpt展示了語言界面的雛形,而新的chatgpt則給人截然不同的感覺。它快速、智能、有趣、自然,而且「樂於助人」。「隨着我們增加(可選的)個性化功能、訪問信息的功能、代表你採取行動的功能等,我真的看到了一個令人興奮的未來,我們可以用電腦做比以往更多的事情。」

標籤: 娛樂頭條