任意文本、視覺、音頻混合生成,多模態有了強大的基礎引擎CoDi-2

娛樂頭條 1784℃

機器之心報道

編輯:杜偉、大盤雞

研究者表示,CoDi-2 標誌着在開發全面的多模態基礎模型領域取得了重大突破。

今年 5 月,北卡羅來納大學教堂山分校、微軟提出一種可組合擴散(Composable Diffusion,簡稱 CoDi)模型,讓一種模型統一多種模態成為可能。CoDi 不僅支持從單模態到單模態的生成,還能接收多個條件輸入以及多模態聯合生成。

近日,UC 伯克利、微軟 Azure AI、Zoom、北卡羅來納大學教堂山分校等多個機構的研究者將 CoDi 升級到了 CoDi-2。

論文地址:https://arxiv.org/pdf/2311.18775.pdf

項目地址:https://codi-2.github.io/

項目 demo

論文一作 Zineng Tang 表示,「CoDi-2 遵循複雜的多模態交錯上下文指令,以零樣本或少樣本交互的方式生成任何模態(文本、視覺和音頻)。」

任意文本、視覺、音頻混合生成,多模態有了強大的基礎引擎CoDi-2 - 陸劇吧

圖源:https://twitter.com/ZinengTang/status/1730658941414371820

可以說,作為一種多功能、交互式的多模態大語言模型(MLLM),CoDi-2 能夠以 any-to-any 輸入 - 輸出模態範式進行上下文學習、推理、聊天、編輯等任務。通過對齊編碼與生成時的模態與語言,CoDi-2 使 LLM 不僅可以理解複雜的模態交錯指令和上下文示例, 還能在連續的特徵空間內自回歸地生成合理和連貫的多模態輸出。

而為了訓練 CoDi-2,研究者構建了一個大規模生成數據集,包含了跨文本、視覺和音頻的上下文多模態指令。CoDi-2 展示了一系列多模態生成的零樣本能力,比如上下文學習、推理以及通過多輪交互對話實現的 any-to-any 模態生成組合。其中在主題驅動圖像生成、視覺轉換和音頻編輯等任務上超越了以往領域特定的模型。

任意文本、視覺、音頻混合生成,多模態有了強大的基礎引擎CoDi-2 - 陸劇吧

人類與 CoDi-2 的多輪對話為圖像編輯提供了上下文多模態指令。

模型架構

CoDi-2 在設計時旨在處理上下文中的文本、圖像和音頻等多模態輸入,利用特定指令促進上下文學習並生成相應的文本、圖像和音頻輸出。CoDi-2 模型架構圖如下所示。

任意文本、視覺、音頻混合生成,多模態有了強大的基礎引擎CoDi-2 - 陸劇吧

將多模態大語言模型作為基礎引擎

這種 any-to-any 基礎模型可以消化交錯式模態輸入,理解和推理複雜指令(如多輪對話、上下文示例),並與多模態擴散器交互,實現這一切的前提是需要一個強大的基礎引擎。研究者提出將 MLLM 作為這個引擎,它的構建需要為僅文本的 LLM 提供多模態感知。

利用對齊的多模態編碼器映射,研究者可以無縫地使 LLM 感知到模態交錯的輸入序列。具體地,在處理多模態輸入序列時,他們首先使用多模態編碼器將多模態數據映射到特徵序列,然後特殊 token 被添加到特徵序列的前後,比如「audio [ audio feature sequence ] /audio」。

基於 MLLM 的多模態生成

研究者提出將擴散模型(DM)集成到 MLLM 中,從而生成多模態輸出,這裡遵循細緻入微的多模態交錯指令和提示。擴散模型的訓練目標如下所示:

接着他們提出訓練 MLLM 以生成條件式特徵 c = C_y ( y ) ,該特徵被饋入到擴散模型中以合成目標輸出 x。這樣一來,擴散模型的生成損失被用來訓練 MLLM。

任務類型

本文提出的模型在以下示例任務類型中顯示出強大的能力,它提供了一種獨特的方法來提示模型生成或轉換上下文中的多模態內容,包括本文、圖像、音頻、視頻及其組合。

1. 零樣本提示。零樣本提示任務要求模型在沒有任何先前示例的情況下進行推理並生成新內容。

2. 一次 / 少量樣本提示。一次或少量樣本提示為模型提供了一個或幾個示例,以便在執行類似任務之前從中學習。這種方法在以下任務中很明顯:模型將學習到的概念從一個圖像應用到另一個圖像,或者通過理解所提供示例中描述的風格來創建一個新的藝術品。

(1)範例學習在要求模型將此學習應用於新實例之前,向模型顯式顯示期望輸出的示例。

(2)概念學習涉及模型從這些給定示例的共享概念 / 屬性中學習,例如藝術風格或模式,然後創建展示類似概念 / 屬性的新內容。

(3)主題驅動的學習側重於根據一組提供的圖像生成新的內容。

實驗及結果

模型設置

本文模型的實現基於 Llama2,特別是 Llama-2-7b-chat-hf。研究者使用 ImageBind ,它具有對齊的圖像、視頻、音頻、文本、深度、thermal 和 IMU 模式編碼器。研究者使用 ImageBind 對圖像和音頻特徵進行編碼,並通過多層感知器(MLP)將其投射到 LLM(Llama-2-7b-chat-hf)的輸入維度。MLP 由線性映射、激活、歸一化和另一個線性映射組成。當 LLM 生成圖像或音頻特徵時,他們通過另一個 MLP 將其投射回 ImageBind 特徵維度。本文圖像擴散模型基於 StableDiffusion2.1 (stabilityai/stable-diffusion-2-1-unclip)、AudioLDM2 和 zeroscope v2。

對於需要更高保真原始輸入的圖像或音頻,研究者還將原始圖像或音頻輸入到擴散模型中,同時通過連接擴散噪聲生成特徵。這種方法在保留輸入內容的最大感知特徵方面尤為有效,添加新內容或改變風格等指令編輯也是如此。

圖像生成評估

下圖展示了 Dreambench 上主題驅動圖像生成的評估結果和 MSCOCO 上的 FID 分數。本文方法實現了極具競爭力的零樣本性能,顯示了其對未知新任務的泛化能力。

任意文本、視覺、音頻混合生成,多模態有了強大的基礎引擎CoDi-2 - 陸劇吧

音頻生成評估

表 5 展示了音頻處理任務的評估結果,即添加、刪除和替換音軌中的元素。從表中可以明顯看出,與之前的方法相比,本文方法表現出了卓越的性能。值得注意的是,在所有三個編輯任務中,它在所有指標 — 對數譜距離(LSD)、Kullback-Leibler(KL)發散和 Fr é chet Dis- tance(FD)上都取得了最低得分。

標籤: 娛樂頭條