開源工具xTuring厲害了,三行代碼就能創建自己的大語言模型

站長之家(ChinaZ.com)7月18日 消息:xTuring 是一個開源工具,可以讓用戶只用三行代碼就能創建自己的大語言模型 (LLMs)。

據了解,xTuring由 Stochastic 團隊開發,旨在優化和加速人工智慧大語言模型。Stochastic 擁有一支由聰明的機器學習工程師、博士後和哈佛大學研究生組成的團隊,專註於優化和加速法學碩士的人工智慧。

自動文本傳輸、聊天機器人、語言翻譯和內容製作等應用程序是人們努力利用這些概念開發和創建新應用程序的領域。訓練和微調這些模型可能既耗時又昂貴。無論是使用 LLaMA、GPT-J、GPT-2還是其他方法,xTuring 都可以輕鬆快速地進行模型優化。

xTuring 可以適應不同的硬體配置,通過內存高效的微調技術 LoRA,加快學習過程,降低硬體成本。據稱,xTuring 使用 LoRA 等內存高效微調技術來加速學習過程,並將硬體支出減少多達90%。通過減少微調所需的內存量,LoRA 有助於更快速、更有效的模型訓練。

與其他微調技術相比,xTuring 在 LLaMA7B 模型的微調能力上取得了出色的結果。LLaMA7B 模型被用作 xTuring 微調能力的基準,團隊將 xTuring 與其他微調技術進行了比較。數據集由52K token組成,測試中使用了335GB CPU 內存和4xA100GPU。

結果表明,使用 DeepSpeed + CPU 卸載對 LLaMA7B 模型進行每個 epoch21小時的訓練消耗了33.5GB GPU 和190GB CPU。在使用 LoRA + DeepSpeed 或 LoRA + DeepSpeed + CPU 卸載進行微調時,GPU 上的內存使用量分別急劇下降至23.7GB 和21.9GB。CPU 使用的 RAM 量從14.9GB 下降到10.2GB。此外,使用 LoRA + DeepSpeed 或 LoRA + DeepSpeed + CPU 卸載時,訓練時間從每個 epoch40分鐘減少到20分鐘。

操作方面,用戶可以通過簡單的滑鼠點擊來微調模型,並且 xTuring 的用戶界面非常簡單易用。該團隊表示,xTuring 是調整大型語言模型的不錯選擇,因為它支持單個和多個 GPU 訓練,使用內存高效的方法,並具有直觀的界面。

項目網址:https://github.com/stochasticai/xTuring

https://xturing.stochastic.ai/