斯嘉丽怒斥OpenAI:山寨我的声音!连朋友都分辨不出来

娱乐头条 5775℃

每经编辑:杜宇,宋欣悦

5月21日,著名影星斯嘉丽·约翰逊(scarlett johansson)指控openai的chatgpt,非法使用其声音并要求下架,表示对openai的行为感到“震惊”和“愤怒”。对此,openai回应称,将暂停使用“sky”模式的声音,并详细介绍了语音选择的创作流程,强调所有配音均来自专业演员。

此前,openai推出新旗舰模型gpt-4o,该模型在保留了之前的五种语音模式的基础上,大大提升了图像和音频理解方面的能力,能够进行实时语音通信,可以识别音调、说话的人和背景噪音,甚至可以输出笑声、歌唱声和表达情感。

斯嘉丽怒斥OpenAI:山寨我的声音!连朋友都分辨不出来 - 陆剧吧

图片来源:x 

斯嘉丽怒怼chatgpt语音模式:山寨! 

5月21日,斯嘉丽·约翰逊在社交平台发长文指控openai非法使用她的声音,要求下架“sky”模式。她表示,这种行为不仅侵犯了她的权利,还引发了公众对ai技术滥用的担忧。 

斯嘉丽在其长文中透露,早在2023年9月,openai曾联系她,希望她为chatgpt的语音模式配音,但因个人原因她拒绝了这个邀请。就在产品发布会前两天,openai再次尝试说服她配音,依旧遭到拒绝。然而,斯嘉丽在最终发布的产品中发现“sky”模式的声音与她本人非常相似。她表示,自己听到演示后,感到震惊、愤怒和难以置信,无法相信openai竟会使用一个如此像她的声音,连她的亲密朋友和新闻媒体都分辨不出sky和她本人声音的差别。

斯嘉丽怒斥OpenAI:山寨我的声音!连朋友都分辨不出来 - 陆剧吧

 图片来源:x 

此外,斯嘉丽提到,openai首席执行官萨姆·阿尔特曼(sam altman)在gpt-4o发布时,在社交平台上只发了一个词“her”,不禁让人联想到,斯嘉丽在2013年科幻ai电影《her》中为女主ai配音的经历,是否在暗示这种相似是故意为之?

斯嘉丽怒斥OpenAI:山寨我的声音!连朋友都分辨不出来 - 陆剧吧

 图片来源:x 

斯嘉丽强调,“在这个我们都在努力应对深度伪造,保护自身形象、作品和身份的时代,我认为这些问题需要得到绝对的明确。我期待通过透明度和立法来解决这些问题,以确保个人权利得到保护。” 

面对指控,openai迅速做出反应,宣布暂停使用“sky”模式的声音。他们在官网上详细介绍了chatgpt语音模式的创作流程,强调所有声音都是从400多名专业配音演员中挑选出来的,并经过严格的审核。 

openai的官方声明中提到:“我们收到了关于chatgpt选取声音方式的一些质疑,尤其是针对“sky”。目前,我们正积极采取措施,暂停“sky”的使用,以解决这些问题。” 

gpt-4o:对话式ai的巨大飞跃 

此前,chatgpt的语音模式包括breeze、cove、ember、juniper和sky五种声音。这些声音是经过精心挑选,以满足用户的多样化需求。每种声音都拥有独特的情感和声音特质,为用户提供了更加丰富的交互体验。 

而最新发布的gpt-4o版本不仅保留了之前的五种语音模式,还进一步提升了语音交互的自然度和情感表达能力。gpt-4o在语音识别和生成方面进行了多项改进,使得ai助手更加智能和人性化。 

据介绍,新模型使chatgpt能够处理50种不同的语言,同时提高了速度和质量。 

gpt-4o是迈向更自然人机交互的一步,它可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出,“与现有模型相比,gpt-4o在图像和音频理解方面尤其出色。” 

在gpt-4o之前,用户使用语音模式与chatgpt对话时,gpt-3.5的平均延迟为2.8秒,gpt-4为5.4秒,音频在输入时还会由于处理方式丢失大量信息,让gpt-4无法直接观察音调、说话的人和背景噪音,也无法输出笑声、歌唱声和表达情感。 

与之相比,gpt-4o可以在232毫秒内对音频输入做出反应,与人类在对话中的反应时间相近。在录播视频中,两位高管做出了演示:机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。

斯嘉丽怒斥OpenAI:山寨我的声音!连朋友都分辨不出来 - 陆剧吧

图片来源:截图于youtube 

图像输入方面,演示视频显示,openai高管启动摄像头要求实时完成一个一元方程题,chatgpt轻松完成了任务;另外,高管还展示了chatgpt桌面版对代码和电脑桌面(一张气温图表)进行实时解读的能力。

斯嘉丽怒斥OpenAI:山寨我的声音!连朋友都分辨不出来 - 陆剧吧

图片来源:截图于youtube

openai称,“我们跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。由于gpt-4o是我们第一个结合所有这些模式的模型,因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。”

每日经济新闻

标签: 娱乐头条