AI視野:OpenAI否認即將發布GPT-4.5;Stability AI推出新會員模式;DomoAI支持視頻一鍵轉動漫;阿里I2VGen-XL模型代碼公布

📰🤖📢AI新鮮事

OpenAI否認即將發布GPT-4.5

OpenAI CEO Sam Altman在Reddit上闢謠稱公司未計劃發布GPT-4.5,否認最新語言模型的泄露,截圖顯示為虛假信息。

【AiBase提要】:

👥 OpenAI CEO Sam Altman否認GPT-4.5泄露,證實截圖為假信息。

📅 尚不清楚OpenAI是否會發布GPT-4.5,或者直接跳至GPT-5。

🌐 OpenAI曾在2020年發布GPT-3,2023年3月發布GPT-4,同時正積極開發GPT-5。

OpenAI新研究:GPT-2能監督GPT-4

研究發現通過以GPT-2級模型為弱監督者對GPT-4進行微調,能顯著提高自然語言處理任務中的泛化性能,為超級AI對齊問題提供新思路。

【AiBase提要】

🔍 創新方向: 通過小模型的弱監督控制大模型,解決超級AI對齊問題的挑戰。

📈 研究結果: GPT-2級模型對GPT-4微調在語言處理任務中取得顯著改進,展示了弱到強泛化的可行性。

👥 研究機會: 提供開源代碼和1000萬美元資助計劃,鼓勵研究者在超級AI對齊領域進行深入研究。

Stability AI推出新會員模式

Stability AI在充滿活力的2023年推出新會員模式,以標準化商業使用,包括免費和PRO會員,同時保持對源代碼和權重的開放。

【AiBase提要:】

💼 新會員模式: Stability AI推出旨在推動商業應用的新會員模式,拓展企業部署範圍,讓公司模型成為構建業務的基石。

💰 商業模式: 包括免費個人、PRO會員和企業定製定價,同時保持對源代碼和權重的開放,注重多樣化的開放方式。

🚀 未來展望: 免費個人用戶也能享受會員資格帶來的價值,包括提前訪問新模型發布、參與公共論壇以及在Stability AI渠道上展示的機會。創始人看好新模式對初創公司和大型企業的吸引力,認為將成為穩健的收入基礎。

英特爾發布AI加速器Gaudi3

英特爾發布Gaudi3系列AI加速器,採用先進5nm製程,性能優越,計劃於明年推出,與英偉達的H200加速卡競爭。

【AiBase提要】

🚀 性能卓越: 英特爾Gaudi3採用先進5nm製程,帶寬提升1.5倍,BF16功率提升4倍,網路算力提升2倍。

💡 市場競爭: Gaudi3計劃在2024年佔據更大市場份額,與英偉達的H200加速卡直接競爭。

💰 成本優勢: 憑藉出色性能和競爭力的總體成本,Gaudi3有望在市場上取得更大的成功。

悉尼科技大學成功開發無侵入系統,將腦電波轉化為文字

悉尼科技大學的研究團隊成功開發了一款便攜、無侵入的系統,通過AI模型將腦電波信號轉換為文字,為中風或癱瘓患者提供新的交流方式。

【AiBase提要:】

🧠 無需手術或其他侵入性方法,悉尼科技大學研發的系統可解讀腦電波並轉換為文字。

🤖 應用前景廣泛,尤其對於中風或癱瘓患者,為其提供無聲思維的溝通方式。

🚀 採用名為DeWave的AI模型,通過佩戴帽子記錄腦電活動,實現無侵入、方便日常使用。

微軟擴展Azure AI Studio,引入Llama2和GPT-4Turbo with Vision

微軟將Meta競爭對手Llama2引入Azure AI Studio,提供AI模型即服務(MaaS),同時加入OpenAI的GPT-4Turbo with Vision,拓展Azure雲平台AI選擇。

【AiBase提要:】

🚀 擴展AI服務: 微軟整合Meta的Llama2作為模型即服務引入Azure AI Studio,提供多個開源Llama模型,豐富Azure雲存儲和服務客戶的AI選擇。

🌐 多樣化AI選擇: 微軟在Azure AI Studio中加入OpenAI的GPT-4Turbo with Vision,為客戶提供更多先進的AI工具,包括圖像分析和描述能力。

🤖 戰略多元化: 微軟採取多元化策略,拓展AI模型庫,不僅提供與OpenAI合作的模型,還引入競爭對手的開源模型,滿足不同客戶需求。

Ollama支持多模態模型使用

Ollama最新版本為macOS和Linux用戶提供了多模態模型支持,通過輸入命令「ollama run llava」並下載llava-7B模型,用戶可輕鬆在本地運行Llama2、Code Llama等模型,支持近二十多個語言模型系列。

官網地址:https://top.aibase.com/tool/ollama

【AiBase提要:】

🚀 多模態模型支持: Ollama最新版本允許用戶在macOS和Linux上本地運行多模態模型,提供更靈活的應用場景。

⚙️ 模型選擇與運行: 用戶通過輸入「ollama run llava」並下載llava-7B模型,即可輕鬆運行Llama2、Code Llama等模型,拖放圖像輸入問題。

📈 量化級別與性能權衡: Ollama支持多個語言模型系列和不同的quot;tagsquot;,用戶可根據需求選擇量化級別,權衡模型精確度和運行速度。

🤖📈💻💡大模型動態

阿里圖像生成視頻模型I2VGen-XL代碼發布

阿里於11月份發布的圖像生成視頻模型I2VGen-XL,如期開源了其代碼和模型,該模型通過3500萬個單鏡頭文本視頻對和60億個文本圖像對的數據訓練,提高了生成視頻的語義準確性和細節連續性。

代碼地址:https://github.com/damo-vilab/i2vgen-xl

【AiBase提要:】

👁️‍🗨️ 基礎階段和優化階段: I2VGen-XL模型分為基礎階段和優化階段,通過分層編碼器保持語義連貫性,整合簡短文本增強視頻細節。

📈 模型優化數據: 研究團隊通過收集約3500萬個單鏡頭文本視頻對和60億個文本圖像對的數據,優化了I2VGen-XL模型,提高了生成視頻的語義準確性、細節連續性和清晰度。

🚀 代碼開源地址: 阿里圖像生成視頻模型I2VGen-XL的代碼和模型已在GitHub上開源,為研究者和開發者提供了可探索和使用的資源。

元象開源 XVERSE-65B-Chat 大模型

元象宣布開源 XVERSE-65B-Chat 大模型,提供強大且無條件免費商用工具,廣大開發者可登錄官網或小程序體驗。

Github:https://github.com/xverse-ai/XVERSE-65B

【AiBase提要:】

🚀 開源力量: 元象發布 XVERSE-65B-Chat,是國內最早、參數最大的免費商用模型,在SuperCLUE評測中位居國內開源總分第一。

🧠 卓越性能: XVERSE-65B 相較於其他模型,擁有更強的理解、生成、邏輯和記憶能力,能處理更多樣、更困難的任務。

🔗 資源鏈接: 開發者可通過 Github、Hugging Face、ModelScope等平台獲取 XVERSE-65B-Chat 模型。

上海交通大學攜手百度發布白玉蘭科學大模型2.0版

上海交通大學與百度智能雲合作發布了包括「法律開源」和「化學合成2.0」在內的「白玉蘭科學大模型2.0版」,其中「法律開源」模型在法律領域表現出色,超越了同類中文通用大模型和中文法律大模型。

【AiBase提要:】

🔍 上海交通大學與百度共同發布白玉蘭科學大模型2.0版,包含法律和化學領域。

🧠 「白玉蘭科學大模型—法律開源」在領域預訓練基礎上,通過融合法律知識,超越同類模型。

🌐 此次發布標誌著雙方在AI for Science領域取得新進展,為校企深入合作樹立了新典範。

谷歌推生成式AI醫療模型MedLM

谷歌發布MedLM生成式AI醫療模型,基於Med-PaLM2,美國醫學執照考試準確率達85%,計劃整合Gemini模型服務全球醫療行業。

【AiBase提要】

🚀 谷歌MedLM模型,專為醫療保健行業設計,通過美國醫學執照考試取得85%準確率。

🏥 MedLM基於Med-PaLM2,相較首代提高18%,谷歌計劃整合Gemini模型拓展其人工智慧功能。

🌍 MedLM服務醫療行業各方面,包括醫院、藥物開發、聊天機器人等,已在多個組織中測試並逐步投入生產。

🤖📱💼AI應用

Spotify測試AI歌單功能

Spotify正在測試基於AI技術和用戶提示創建歌單的功能,通過ChatGPT響應用戶輸入,展示了AI驅動的歌單生成過程。

【AiBase提要:】

🎵 Spotify確認測試基於提示的AI歌單功能,允許用戶使用AI技術和提示創建歌單。

🤖 視頻顯示用戶通過「Your Library」選項在Spotify應用中使用ChatGPT創建歌單的過程,AI響應用戶的提示並生成歌單。

🌐 Spotify公司確認測試,但未透露技術細節、工作原理,也未承諾正式上線時間。

視頻重繪工具DomoAI 不用SD視頻一鍵就能轉動漫

DomoAI是一款免費的人工智慧藝術生成器,通過簡單操作和多樣化預設模型,用戶能在20秒內將文本轉化為高質量藝術品,實現快速創作和保持一致的繪畫風格。

官網地址:https://top.aibase.com/tool/domoai

【AiBase提要:】

🎨 創意釋放: DomoAI通過簡短文本提示,如描述老巫師或水下游泳的女孩,幫助用戶快速實現個性化創作。

🌐 社區互動: 提供社區平台,用戶可在Discord中獲取支持,使DomoAI成為與用戶互動發展的藝術創作社區。

🚀 高效創作平台: DomoAI以20秒內將文本轉化為藝術品的速度、簡單操作和豐富預設模型,為用戶提供高效有趣的藝術創作平台。

Visual Electric發布多張圖像組合重繪功能

AI圖像生成工具Visual Electric推出兩大功能,使圖像創作者能夠輕鬆將多張圖像組合重繪,提高創作流程的靈活性。設計師可分開生成各個主體,然後通過重繪功能將它們組合,實現更直觀的創意實現。

官網地址:https://top.aibase.com/tool/visual-electric

【AiBase提要:】

👥 多圖組合: Visual Electric允許用戶將生成的多張圖像進行組合,為設計師提供更多靈活性,支持分階段創作。

🎨 自定義風格: 利用幾張圖片,用戶能夠快速自定義圖像生成風格,類似於Lora訓練的方式,拓展創作可能性。

🚀 直觀創意實現: 推出的新功能使圖像生成過程更加靈活和直觀,讓設計師更輕鬆地實現他們的創意想法,提升創作過程的樂趣。

Instagram推出生成式AI背景編輯工具

Instagram推出生成式AI背景編輯工具,讓用戶通過各種提示定製獨特圖片背景,促進互動體驗。

【AiBase提要:】

🎨 用戶可通過提示如「走紅地毯」自定義背景。

🤳 發布後,其他用戶可參與並互動,輕鬆分享獨特圖像故事。

🌐 生成式AI技術逐漸成為社交媒體創意表達和用戶互動的關鍵。

👨‍💻💡🎯聚焦開發者

谷歌開發實時渲染大型三維場景技術SMERF

Google團隊推出的SMERF技術能在最大300平方米的房間內實時創建逼真的三維場景,支持智能手機和筆記本,具備60fps實時渲染和完整的六自由度導航。該技術採用分層模型劃分和蒸餾訓練策略,解決了渲染大型三維場景性能和質量問題,提供更真實、流暢的三維體驗。

項目地址:https://smerf-3d.github.io/

【AiBase提要:】

🌐 實時渲染大型場景: SMERF技術能在300平方米房間內實時渲染逼真三維場景,支持60fps的流暢導航。

🎮 高效內存使用: 採用分層模型和蒸餾訓練,提高了處理效率和渲染速度,即使在內存有限設備上也能流暢運行。

📱 普及性和真實感: 通過普通智能手機和筆記本實現,用戶可獲得接近照片級真實感的自由三維體驗。

AI生成前端代碼項目「Coffee」

通過人工智慧工具「Coffee」,前端開發者能夠以零依賴、零設置的方式,實現對React代碼庫的快速生成、編輯和維護,顯著提高開發效率。

代碼地址:https://github.com/Coframe/coffee

【AiBase提要:】

🚀 創新工具Coffee: Coffee利用人工智慧技術,支持React代碼庫的快速生成和編輯,無需額外依賴,使前端開發更高效。

🛠️ 統一開發體驗: 無論是新建組件還是編輯現有組件,Coffee提供相同的開發體驗,生成清晰可維護的代碼,符合生產標準。

🌐 未來擴展計劃: Coffee計劃擴展對其他流行前端框架的支持,包括Vue、Svelte等,以拓寬其適用範圍。

谷歌發布NeRFiller,用2D圖像補全3D場景

谷歌與加州大學伯克利分校的研究人員合作推出NeRFiller框架,通過2D圖像修復缺失的3D場景,採用網格先驗和聯合多視角補全策略,顯著提高修復效果和重建效率。

即將開源地址:https://github.com/ethanweber/nerfiller

論文:https://arxiv.org/abs/2312.04560

【AiBase提要:】

🌐 多視角一致性補全: NeRFiller採用網格先驗和聯合多視角補全兩種策略,通過2x2網格形狀提供給補全模型,增加一致性修復效果。

🔍3D場景整合迭代優化: NeRFiller通過迭代方法將2D圖像補全結果整合到全局一致的3D場景中,提升3D場景的幾何形態和一致性。

🚀 重建效率提升: 經測試數據顯示,NeRFiller相比原始數據在PSNR、SSIM等多個評估指標上表現更出色,重建效率提升了約10倍。