2024年2月,sora的橫空出世,讓許多大模型公司的春節都沒能過好。
“春晚還在重播,我們就在緊急拉群討論”,一家ai頭部公司員工對「市界」急切地說。看到sora絲滑的體驗,連賣課博主都蜂擁而動,趕着上線教程,大賺一把。
誰能最快時間“複製”出國內版的sora,更多人將目光放在了阿里、百度、“大模型五虎”身上。但無人想到,拔得頭籌的會是技術表現相對“佛系”的快手。
6月7日,快手突然上線了文生視頻模型“可靈”(kling),並可支持長達2分鐘的視頻生成。此外,與sora至今仍在“期貨”階段相比,可靈一經公布便開放了測試,生成效果亦可圈可點。
“可靈是最近圈內,被討論最多的對象”,一位風投行業人士對「市界」說。據官方數據顯示:可靈上線一個月有超50萬人申請,已開放給超30萬用戶使用,生成了超700萬條短視頻。
可靈的意外火爆,不免讓字節有些尷尬。今年5月,字節也開放了文生視頻模型“即夢”測試,但效果在目前火爆的文生視頻賽道中,尚不具明顯優勢。
突然被曾經“忽視”的對手甩開身位,字節需要埋頭追趕。據鈦媒體報道,近期,字節跳動將ai大模型設為集團“p0最高級別”的方向。抖音、剪映等多個團隊也在抓緊研發ai視頻模型應用,預計將在近期公布。
1、做可靈,快、糙、猛
多位開發者對「市界」表示,可靈的上線與亮眼表現,在行業內也算是個意外。
近日,「市界」以一段“黑貓”為關鍵詞,在可靈、即夢,以及智譜ai剛剛上線的“清影”中分別輸入了相同的提示:“下雨天的城市街道上空無一人,一隻可愛的黑貓奔跑而過。它的眼珠是綠色,脖子上帶有黃色的項圈和鈴鐺,全身長着黑亮的長毛。視頻用攝像機的視角拍攝,地面的積水反射出黑貓的身影。”
在生成的三段視頻里,可靈版雖然未能實現快速奔跑的效果,但視頻大致符合客觀規律。
與之對比,“即夢”版地面沒有積水,黑貓也沒有向前走動。“清影”版雖有積水,黑貓行走時,步態古怪,尾巴也出現了丟幀。
▲(視頻依次為可靈、即夢、清影生成作品)
據“硅星人”報道,可靈是快手花了3個月的時間打造的;團隊規模很小,僅有20餘人,牽頭人是現快手視覺生成與互動中心負責人萬鵬飛,其大部分的研究方向為圖像/視頻信號處理、計算攝影和計算機視覺、減少loss函數、視覺生成等。
可靈的前身,來自快手在2023年10月重啟的一個不起眼的項目“噗嘰”,這是一款將靜態圖片通過ai生成2s gif表情包的工具軟件。今年3月初,快手內部開了一個小會,萬鵬飛的想法得到了快手高級副總裁蓋坤(于越)的肯定,迅速確定了將噗嘰作為預調研的產品。
據“硅星人”了解,“做可靈的時候,執行層面有個共識,就是快、糙、猛。”
可靈項目開始不到一個月,就獲得了快手創始人程一笑的支持,將其視為公司戰略級項目。蓋坤也常說:公司的卡都給你們用,公司全力支持。
數字人賽道創業者柯燃對「市界」分析道:“可靈的成功,很大程度上要歸功於快手積累的視頻數據素材。放眼國內,這方面可以與之一戰的也只有抖音。”
可靈風光的同時,字節顯得有些落寞。
雖然“即夢”5月9日便官宣上線;6月17日,即夢也作為首席ai技術支持方,在aigc短劇集《三星堆:未來啟示錄》中亮相。但無論是在c端的表現,或是相較於快手7月13日上線的aigc短劇《山海奇鏡》,即夢的聲量均不甚響亮。
7月17日,市場曾傳出消息稱,字節將公布類sora的文生視頻技術進展。外界也將其解讀為,字節要奮起直追,與可靈正面迎戰了。
但字節方面隨後向「市界」表示,該消息並不準確。7月17日當日,「市界」注意到,活動更類似一場技術分享會。會議主要由豆包大模型視覺基礎研究團隊負責人馮佳時主持,並由字節研究科學家、機構學者等,做了整場的英語技術分享。
看起來,字節的“大招”或許還需要等些時日。
2、字節還沒回過神
那麼,在最近如火如荼的文生視頻賽道里,字節為何錯過盛宴;最近字節又在忙些什麼?
某種程度上,或許因為比起快手押注“可靈”,可以“一力降十會”。字節的大模型布局要更為複雜——而今年上半年,字節更重要的對手放在了騰訊與阿里。
面對大模型,字節的步調已不可謂不“激進”。畢竟2個多月前,率先在行業內發起大模型價格戰的,正是字節。
5月15日,在字節跳動“force原動力大會”上,字節推出了基於其自研豆包大模型的api服務。同時,火山引擎總裁譚待一步到位,亮出了“豆包”的最新價格:0.0008元/千tokens,宣布這是低於行業99.3%的“地板價”。
彼時,字節的“發難”曾先聲奪人。據「市界」從多方了解,頭部玩家對字節的出擊缺少準備;各方雖感無奈,也只能被動追隨。
接下來幾天,阿里雲、百度文心大模型、騰訊雲先後宣布,將旗下大模型推理輸入token以及api大幅降價。在此影響下,如今頭部大模型的c端調用,已幾乎悉數免費,行業也開始朝着下一個生態量級“卷”去。
據一家法律ai應用企業創始人向「市界」透露,api服務開放後幾乎沒有時間差,火山引擎的銷售人員就開始積極接觸客戶、推介產品。這也側面印證了,市場流傳的字節已將大模型標記為最高級別戰略的猜測。
▲(譚待於2024“foece大會”。圖源/火山引擎)
而最近,字節的“當家產品”豆包,增長得較為明顯。
據questmobile數據顯示,截至2024年6月,在國內aigc app中,豆包、天工、kimi智能助手、貓箱增長亮眼——其中豆包流量排名第一。
▲(圖源/questmobile)
與快手相比,字節如今更在意的,或許是從基礎大模型、到ai應用層的全生態競爭。此外,考慮到2021年才正式做雲的火山引擎,在巨頭雲廠商里是“最年輕”的一朵。三年多來,火山雲也一直被視為雲市場的挑戰者角色。字節如何將基礎大模型、應用層、雲市場協同起來,更是一項綜合命題。
近日,據“光子星球”報道,字節“扣子”平台的大量使用者,正尋求如何將創建的智能體、bot接入微信公號或小程序,討論十分活躍。
去年12月,字節在海外推出了ai應用開發平台“coze”。今年2月,國內版“扣子”上線。大量抖音體系商家,也希望從中迅速掘一桶金。
考慮到騰訊在今年5月才姍姍來遲,發布了ai智能體創作與分發平台“騰訊元器”。彼時,扣子的訪問量已達到了233萬次。而截至目前,騰訊元器尚未打通小程序、公眾號、客服訂閱號微信系列生態。
畢竟當下,ai發展仍在早期階段。字節與騰訊一樣,都還需要花費大量時間教育用戶。爭奪ai時代的分發權,先聲奪人,或許是字節為了瞄準騰訊要做的更大功課。
3、後發制人,尚有時間
站在行業層面,在當今互聯網中,最不缺內容流量、電商流量,以及資金彈藥的字節,即便短期在文生視頻中“落後”一步,從長期來看,仍具備後發制人的潛力。
用積極的市場策略追平落後身位、大力出奇蹟,同樣也是字節的拿手好戲。
最近,瞄準阿里,字節也在做整合大模型的工作。在剛剛過去的6月26日釘釘生態大會上,總裁葉軍宣布除了阿里自家的通義外,還將把其餘6家的第三方大模型裝入釘釘中。其中包含minimax、月之暗面、智譜ai、獵戶星空、零一萬物和百川智能,涵蓋了國內幾乎所有知名的大模型創企,要“構建中國最開放的ai生態”不言自明。
而與釘釘玩法類似,字節旗下扣子平台除了支持自家的“豆包”外,還接入了通義千問、月之暗面、minimax等各大外部模型。6月14日,扣子還上線了“模型廣場”功能,支持用戶選擇匿名的兩個模型,根據生成內容的表現來為其打分pk。
此外,字節近期被曝光,對“ai+硬件”的探索正在加快,並不惜通過收購延攬人才。
據“tech星球”報道,字節旗下的pico從去年下半年開始在研發多個穿戴設備,包括耳機和音響,這些設備也將搭載ai。字節豆包團隊也有基於大模型軟硬件結合的探索,大模型軟硬件結合已經逐步在學習機、機器狗、機器人等硬件設備上有所應用。
另據36氪報道,字節ai硬件“d線”負責人為李浩乾。後者為字節在今年3月份收購的ows(open wearable stereo,開放式可穿戴立體聲耳機)耳機品牌oladance的創始人。另一條ai硬件條線“o線”的負責人也是字節曾收購公司的創始人,其向字節跳動技術副總裁洪定坤彙報。
而在文生視頻方向,面對賽道剛剛的火爆,包括字節在內的追趕者們,大家都還有時間。
近日,一位開發者告訴「市界」:“現在就是用可靈構構圖、減負工作流程,還不到完全用它創作的程度,所以也還沒有什麼依賴性。”
而在另一位開發者、短視頻aigc博主的眼中,可靈還有不少優化空間:“靠可靈文生視頻不能保證虛擬人ip的一貫性。我一般都是用可靈圖生視頻的功能,相當於給可靈‘墊’一張圖,讓他在這個基礎上生成不同視角動態視頻,再拼接到一起,模擬運鏡的效果,實際上還是人操作的比重更大。”
國內某ai模擬交友產品的研發成員則講道:“現在的大模型應用市場,大家都在摸着石頭過河。怎樣商業化是一個太遙遠、太模糊的問題。但可以肯定的是,越多人用起來、玩起來,越能保證產品的優化迭代。”
(柯燃為化名)
作者 | 董溫淑
編輯 | 李 原
運營 | 劉 珊