AI視野：OpenAI否認即將發布GPT-4.5；Stability AI推出新會員模式；DomoAI支持視頻一鍵轉動漫；阿里I2VGen-XL模型代碼公布

2023-12-16 12:42:03 綜藝 2912℃

📰🤖📢AI新鮮事

OpenAI否認即將發布GPT-4.5

OpenAI CEO Sam Altman在Reddit上闢謠稱公司未計劃發布GPT-4.5，否認最新語言模型的泄露，截圖顯示為虛假信息。

【AiBase提要】:

👥 OpenAI CEO Sam Altman否認GPT-4.5泄露，證實截圖為假信息。

📅 尚不清楚OpenAI是否會發布GPT-4.5，或者直接跳至GPT-5。

🌐 OpenAI曾在2020年發布GPT-3，2023年3月發布GPT-4，同時正積極開發GPT-5。

OpenAI新研究:GPT-2能監督GPT-4

研究發現通過以GPT-2級模型為弱監督者對GPT-4進行微調，能顯著提高自然語言處理任務中的泛化性能，為超級AI對齊問題提供新思路。

【AiBase提要】

🔍 創新方向: 通過小模型的弱監督控制大模型，解決超級AI對齊問題的挑戰。

📈 研究結果: GPT-2級模型對GPT-4微調在語言處理任務中取得顯著改進，展示了弱到強泛化的可行性。

👥 研究機會: 提供開源代碼和1000萬美元資助計劃，鼓勵研究者在超級AI對齊領域進行深入研究。

Stability AI推出新會員模式

Stability AI在充滿活力的2023年推出新會員模式，以標準化商業使用，包括免費和PRO會員，同時保持對源代碼和權重的開放。

【AiBase提要:】

💼 新會員模式: Stability AI推出旨在推動商業應用的新會員模式，拓展企業部署範圍，讓公司模型成為構建業務的基石。

💰 商業模式: 包括免費個人、PRO會員和企業定製定價，同時保持對源代碼和權重的開放，注重多樣化的開放方式。

🚀 未來展望: 免費個人用戶也能享受會員資格帶來的價值，包括提前訪問新模型發布、參與公共論壇以及在Stability AI渠道上展示的機會。創始人看好新模式對初創公司和大型企業的吸引力，認為將成為穩健的收入基礎。

英特爾發布AI加速器Gaudi3

英特爾發布Gaudi3系列AI加速器，採用先進5nm製程，性能優越，計劃於明年推出，與英偉達的H200加速卡競爭。

【AiBase提要】

🚀 性能卓越: 英特爾Gaudi3採用先進5nm製程，帶寬提升1.5倍，BF16功率提升4倍，網絡算力提升2倍。

💡 市場競爭: Gaudi3計劃在2024年佔據更大市場份額，與英偉達的H200加速卡直接競爭。

💰 成本優勢: 憑藉出色性能和競爭力的總體成本，Gaudi3有望在市場上取得更大的成功。

悉尼科技大學成功開發無侵入系統，將腦電波轉化為文字

悉尼科技大學的研究團隊成功開發了一款便攜、無侵入的系統，通過AI模型將腦電波信號轉換為文字，為中風或癱瘓患者提供新的交流方式。

【AiBase提要:】

🧠 無需手術或其他侵入性方法，悉尼科技大學研發的系統可解讀腦電波並轉換為文字。

🤖 應用前景廣泛，尤其對於中風或癱瘓患者，為其提供無聲思維的溝通方式。

🚀 採用名為DeWave的AI模型，通過佩戴帽子記錄腦電活動，實現無侵入、方便日常使用。

微軟擴展Azure AI Studio，引入Llama2和GPT-4Turbo with Vision

微軟將Meta競爭對手Llama2引入Azure AI Studio，提供AI模型即服務（MaaS），同時加入OpenAI的GPT-4Turbo with Vision，拓展Azure雲平台AI選擇。

【AiBase提要:】

🚀 擴展AI服務: 微軟整合Meta的Llama2作為模型即服務引入Azure AI Studio，提供多個開源Llama模型，豐富Azure雲存儲和服務客戶的AI選擇。

🌐 多樣化AI選擇: 微軟在Azure AI Studio中加入OpenAI的GPT-4Turbo with Vision，為客戶提供更多先進的AI工具，包括圖像分析和描述能力。

🤖 戰略多元化: 微軟採取多元化策略，拓展AI模型庫，不僅提供與OpenAI合作的模型，還引入競爭對手的開源模型，滿足不同客戶需求。

Ollama支持多模態模型使用

Ollama最新版本為macOS和Linux用戶提供了多模態模型支持，通過輸入命令“ollama run llava”並下載llava-7B模型，用戶可輕鬆在本地運行Llama2、Code Llama等模型，支持近二十多個語言模型系列。

官網地址:https://top.aibase.com/tool/ollama

【AiBase提要:】

🚀 多模態模型支持: Ollama最新版本允許用戶在macOS和Linux上本地運行多模態模型，提供更靈活的應用場景。

⚙️ 模型選擇與運行: 用戶通過輸入“ollama run llava”並下載llava-7B模型，即可輕鬆運行Llama2、Code Llama等模型，拖放圖像輸入問題。

📈 量化級別與性能權衡: Ollama支持多個語言模型系列和不同的quot;tagsquot;，用戶可根據需求選擇量化級別，權衡模型精確度和運行速度。

🤖📈💻💡大模型動態

阿里圖像生成視頻模型I2VGen-XL代碼發布

阿里於11月份發布的圖像生成視頻模型I2VGen-XL，如期開源了其代碼和模型，該模型通過3500萬個單鏡頭文本視頻對和60億個文本圖像對的數據訓練，提高了生成視頻的語義準確性和細節連續性。

代碼地址:https://github.com/damo-vilab/i2vgen-xl

【AiBase提要:】

👁️‍🗨️ 基礎階段和優化階段: I2VGen-XL模型分為基礎階段和優化階段，通過分層編碼器保持語義連貫性，整合簡短文本增強視頻細節。

📈 模型優化數據: 研究團隊通過收集約3500萬個單鏡頭文本視頻對和60億個文本圖像對的數據，優化了I2VGen-XL模型，提高了生成視頻的語義準確性、細節連續性和清晰度。

🚀 代碼開源地址: 阿里圖像生成視頻模型I2VGen-XL的代碼和模型已在GitHub上開源，為研究者和開發者提供了可探索和使用的資源。

元象開源 XVERSE-65B-Chat 大模型

元象宣布開源 XVERSE-65B-Chat 大模型，提供強大且無條件免費商用工具，廣大開發者可登錄官網或小程序體驗。

Github:https://github.com/xverse-ai/XVERSE-65B

【AiBase提要:】

🚀 開源力量: 元象發布 XVERSE-65B-Chat，是國內最早、參數最大的免費商用模型，在SuperCLUE評測中位居國內開源總分第一。

🧠 卓越性能: XVERSE-65B 相較於其他模型，擁有更強的理解、生成、邏輯和記憶能力，能處理更多樣、更困難的任務。

🔗 資源鏈接: 開發者可通過 Github、Hugging Face、ModelScope等平台獲取 XVERSE-65B-Chat 模型。

上海交通大學攜手百度發布白玉蘭科學大模型2.0版

上海交通大學與百度智能雲合作發布了包括“法律開源”和“化學合成2.0”在內的“白玉蘭科學大模型2.0版”，其中“法律開源”模型在法律領域表現出色，超越了同類中文通用大模型和中文法律大模型。

【AiBase提要:】

🔍 上海交通大學與百度共同發布白玉蘭科學大模型2.0版，包含法律和化學領域。

🧠 “白玉蘭科學大模型—法律開源”在領域預訓練基礎上，通過融合法律知識，超越同類模型。

🌐 此次發布標誌着雙方在AI for Science領域取得新進展，為校企深入合作樹立了新典範。

谷歌推生成式AI醫療模型MedLM

谷歌發布MedLM生成式AI醫療模型，基於Med-PaLM2，美國醫學執照考試準確率達85%，計劃整合Gemini模型服務全球醫療行業。

【AiBase提要】

🚀 谷歌MedLM模型，專為醫療保健行業設計，通過美國醫學執照考試取得85%準確率。

🏥 MedLM基於Med-PaLM2，相較首代提高18%，谷歌計劃整合Gemini模型拓展其人工智能功能。

🌍 MedLM服務醫療行業各方面，包括醫院、藥物開發、聊天機器人等，已在多個組織中測試並逐步投入生產。

🤖📱💼AI應用

Spotify測試AI歌單功能

Spotify正在測試基於AI技術和用戶提示創建歌單的功能，通過ChatGPT響應用戶輸入，展示了AI驅動的歌單生成過程。

【AiBase提要:】

🎵 Spotify確認測試基於提示的AI歌單功能，允許用戶使用AI技術和提示創建歌單。

🤖 視頻顯示用戶通過“Your Library”選項在Spotify應用中使用ChatGPT創建歌單的過程，AI響應用戶的提示並生成歌單。

🌐 Spotify公司確認測試，但未透露技術細節、工作原理，也未承諾正式上線時間。

視頻重繪工具DomoAI 不用SD視頻一鍵就能轉動漫

DomoAI是一款免費的人工智能藝術生成器，通過簡單操作和多樣化預設模型，用戶能在20秒內將文本轉化為高質量藝術品，實現快速創作和保持一致的繪畫風格。

官網地址:https://top.aibase.com/tool/domoai

【AiBase提要:】

🎨 創意釋放: DomoAI通過簡短文本提示，如描述老巫師或水下游泳的女孩，幫助用戶快速實現個性化創作。

🌐 社區互動: 提供社區平台，用戶可在Discord中獲取支持，使DomoAI成為與用戶互動發展的藝術創作社區。

🚀 高效創作平台: DomoAI以20秒內將文本轉化為藝術品的速度、簡單操作和豐富預設模型，為用戶提供高效有趣的藝術創作平台。

Visual Electric發布多張圖像組合重繪功能

AI圖像生成工具Visual Electric推出兩大功能，使圖像創作者能夠輕鬆將多張圖像組合重繪，提高創作流程的靈活性。設計師可分開生成各個主體，然後通過重繪功能將它們組合，實現更直觀的創意實現。

官網地址:https://top.aibase.com/tool/visual-electric

【AiBase提要:】

👥 多圖組合: Visual Electric允許用戶將生成的多張圖像進行組合，為設計師提供更多靈活性，支持分階段創作。

🎨 自定義風格: 利用幾張圖片，用戶能夠快速自定義圖像生成風格，類似於Lora訓練的方式，拓展創作可能性。

🚀 直觀創意實現: 推出的新功能使圖像生成過程更加靈活和直觀，讓設計師更輕鬆地實現他們的創意想法，提升創作過程的樂趣。

Instagram推出生成式AI背景編輯工具

Instagram推出生成式AI背景編輯工具，讓用戶通過各種提示定製獨特圖片背景，促進互動體驗。

【AiBase提要:】

🎨 用戶可通過提示如“走紅地毯”自定義背景。

🤳 發布後，其他用戶可參與並互動，輕鬆分享獨特圖像故事。

🌐 生成式AI技術逐漸成為社交媒體創意表達和用戶互動的關鍵。

👨‍💻💡🎯聚焦開發者

谷歌開發實時渲染大型三維場景技術SMERF

Google團隊推出的SMERF技術能在最大300平方米的房間內實時創建逼真的三維場景，支持智能手機和筆記本，具備60fps實時渲染和完整的六自由度導航。該技術採用分層模型劃分和蒸餾訓練策略，解決了渲染大型三維場景性能和質量問題，提供更真實、流暢的三維體驗。

項目地址:https://smerf-3d.github.io/

【AiBase提要:】

🌐 實時渲染大型場景: SMERF技術能在300平方米房間內實時渲染逼真三維場景，支持60fps的流暢導航。

🎮 高效內存使用: 採用分層模型和蒸餾訓練，提高了處理效率和渲染速度，即使在內存有限設備上也能流暢運行。

📱 普及性和真實感: 通過普通智能手機和筆記本實現，用戶可獲得接近照片級真實感的自由三維體驗。

AI生成前端代碼項目“Coffee”

通過人工智能工具“Coffee”，前端開發者能夠以零依賴、零設置的方式，實現對React代碼庫的快速生成、編輯和維護，顯著提高開發效率。

代碼地址:https://github.com/Coframe/coffee

【AiBase提要:】

🚀 創新工具Coffee: Coffee利用人工智能技術，支持React代碼庫的快速生成和編輯，無需額外依賴，使前端開發更高效。

🛠️ 統一開發體驗: 無論是新建組件還是編輯現有組件，Coffee提供相同的開發體驗，生成清晰可維護的代碼，符合生產標準。

🌐 未來擴展計劃: Coffee計劃擴展對其他流行前端框架的支持，包括Vue、Svelte等，以拓寬其適用範圍。

谷歌發布NeRFiller，用2D圖像補全3D場景

谷歌與加州大學伯克利分校的研究人員合作推出NeRFiller框架，通過2D圖像修復缺失的3D場景，採用網格先驗和聯合多視角補全策略，顯著提高修復效果和重建效率。

即將開源地址:https://github.com/ethanweber/nerfiller

論文:https://arxiv.org/abs/2312.04560

【AiBase提要:】

🌐 多視角一致性補全: NeRFiller採用網格先驗和聯合多視角補全兩種策略，通過2x2網格形狀提供給補全模型，增加一致性修復效果。

🔍3D場景整合迭代優化: NeRFiller通過迭代方法將2D圖像補全結果整合到全局一致的3D場景中，提升3D場景的幾何形態和一致性。

🚀 重建效率提升: 經測試數據顯示，NeRFiller相比原始數據在PSNR、SSIM等多個評估指標上表現更出色，重建效率提升了約10倍。

標籤：綜藝

上一篇：播4集，熱度4億，張藝謀證明了自己的眼光，這次換劉浩存大爆了

下一篇：魯尼：我和瓦爾迪妻子的事情都過去了；我很尊重他，沒別的