麻省理工研究員在機器學習模型隱私保護方面取得突破

電影快訊 4851℃

站長之家(ChinaZ.com)7月18日 消息:最近,麻省理工學院的研究人員在保護機器學習模型中的敏感數據方面取得了重大突破。研究團隊開發了一種機器學習模型,可以根據肺部掃描圖片準確預測患者是否患有肺癌,但是與全球醫院分享該模型可能會面臨惡意代理人進行數據提取的風險。為了解決這個問題,研究人員引入了一種新的隱私度量標準,稱為 「Probably Approximately Correct(PAC)Privacy」,以及一個確定保護敏感數據所需的最小噪音量的框架。

傳統的隱私方法,如差異隱私,主要通過添加大量噪音來防止對手區分特定數據的使用,這會降低模型的準確性。PAC 隱私從不同的角度評估對手在添加噪音後重構敏感數據的困難程度。例如,如果敏感數據是人臉,差分隱私將防止對手確定數據集中是否存在特定個體的臉部。相反,PAC 隱私探討的是對手是否能夠提取出可以識別為特定個體臉部的近似輪廓。

麻省理工研究員在機器學習模型隱私保護方面取得突破 - 陸劇吧

為了實現 PAC 隱私,研究人員開發了一種算法,確定向模型中添加的最佳噪音量,以確保即使在對手具有無限計算能力的情況下也能保持隱私。該算法依賴於對手從原始數據的不確定性或熵的角度。通過對數據進行子抽樣並多次運行機器學習訓練算法,該算法比較不同輸出之間的方差,以確定所需的噪音量。方差越小,表示所需的噪音越少。

PAC 隱私算法的一個關鍵優勢是不需要了解模型的內部工作原理或訓練過程。用戶可以指定對手在重構敏感數據方面的置信水平,並且算法提供實現該目標所需的最佳噪音量。然而,值得注意的是,該算法不會估計由於向模型添加噪聲而導致的準確性損失。此外,由於在各種子採樣數據集上重複訓練機器學習模型,實施 PAC Privacy 的計算成本可能會很高。

為了增強 PAC 隱私,研究人員建議修改機器學習訓練過程以提高穩定性,從而減少子樣本輸出之間的方差。這種方法將減少算法的計算負擔並最大限度地減少所需的噪聲量。此外,更穩定的模型通常表現出更低的泛化誤差,從而對新數據進行更準確的預測。

雖然研究人員承認需要進一步探索穩定性、隱私和泛化誤差之間的關係,但他們的工作在保護機器學習模型中的敏感數據方面邁出了一大步。通過利用 PAC 隱私,工程師們可以開發出在保護訓練數據的同時保持準確性的模型,適用於實際應用。藉助減少所需噪音量的潛力,這種技術為醫療領域和其他領域中的安全數據共享開闢了新的可能性。

原論文地址:https://arxiv.org/abs/2210.03458

標籤: 電影快訊