劃重點:
- 研究生們在斯坦福大學開發出一款 AI 模型,可以通過查看 Google 街景圖像,以令人印象深刻的準確率確定具體位置。
- 這款名為 PIGEON 的應用程序可以在很大程度上準確地確定 Google 街景中的具體位置,其預測國家的準確率達到92%,並且在40%的猜測中可以將位置定位在目標位置的25公里範圍內。
- 該模型基於 OpenAI 開發的神經網路 CLIP,以及 GeoGuessr 遊戲的數據集進行訓練,取得了令人印象深刻的成果。
站長之家(ChinaZ.com)12月20日 消息:斯坦福大學的研究生們開發了一款名為 PIGEON 的應用程序,可以僅僅通過查看 Google 街景圖像或其他圖像來確定具體位置,其準確率令人印象深刻。
根據預印本論文的數據,PIGEON 可以以92%的準確率預測所拍攝國家,並且在40%的猜測中可以將位置定位在目標位置的25公里範圍內。該論文指出,PIGEON 在 GeoGuessr 遊戲中排名前0.01%的玩家之內,該遊戲要求用戶根據所拍攝的 Google 街景圖像猜測位置,這也是這個項目的靈感來源。
那麼,PIGEON 是如何工作的呢?
學生們利用了 OpenAI 開發的神經網路 CLIP,通過對視覺類別名稱進行訓練,使其能夠將文本和圖像進行連接。然後,他們根據 GeoGuessr 的數據集進行了訓練,該數據集包含了10萬個原始隨機採樣的地點和四張圖像,以覆蓋給定位置的整個 「全景」,總共有40萬張圖像。與其他 AI 模型訓練的圖像數量相比,PIGEON 的訓練圖像數量相對較少。例如,OpenAI 流行的圖像生成模型 DALL-E2是基於數億張圖像進行訓練的。
此外,學生們還研發了一個名為 PIGEOTTO 的單獨模型,該模型通過訓練來自 Flickr 和維基百科的400萬張照片,以從單張圖像中識別位置。根據論文的數據,PIGEOTTO 在圖像地理定位基準測試中取得了令人印象深刻的成績,在城市準確度方面超過先前的最新技術結果7.7%,在國家準確度方面超過29.8%。
論文還探討了與該模型相關的倫理考慮,包括其益處和風險。在一方面,圖像地理定位具有許多積極的用途,例如自動駕駛、視覺調查以及滿足對照片拍攝地點的好奇心。然而,其負面影響包括對隱私的最直接侵犯。因此,學生們決定不公開發布模型權重,僅在學術驗證時發布代碼。
這項研究為我們展示了 AI 在圖像地理定位方面的巨大潛力,但也引發了隱私和倫理方面的一些擔憂。在將來的發展中,必須更加重視這些問題,並確保合適的保護措施得以實施。
論文網址:https://arxiv.org/abs/2307.05845