新算法可快速對街道照片定位準確率高達97% ＊阿波羅新聞網

想像你在玩GeoGuessr：屏幕上是一棟普通的美國家庭住宅，前院修剪整齊，屋頂飄著國旗，但沒有任何地標能告訴你它在哪個州。你唯一的線索，是一組從美國各地拍攝的四萬多張低解析度航拍圖。你能找出這棟房子的位置嗎？

也許你不能，但人工智慧可以。來自中國石油大學的研究團隊開發出一種全新的機器學習模型，它能在龐大的遙感影像資料庫中搜索，與街景照片精確匹配的俯瞰圖。不論是住宅、商鋪還是工業建築，它都能迅速定位。而它真正令人驚訝的地方，在於「又小又快」。

當模型接收到一張180度視野的街景圖時，能在第一階段以高達97%的準確率縮小定位範圍，幾乎與現有最強模型持平。而在最終精準定位時，它的正確率為82%，與最先進算法的差距不到3個百分點。

但速度和效率才是它的秘密武器。研究團隊指出，該模型的運行速度至少是同類系統的兩倍，記憶體占用卻不到三分之一。這意味著，它不僅能應用於民用導航系統，更可能在國防領域大展拳腳。

研究負責人Peng Ren解釋，他們訓練AI學會忽略視角差異，專注提取兩張圖片中相同的「關鍵地標」，再將這些特徵轉換成一種共享的數字語言。

這一方法被稱為「深度交叉視圖哈希」。它並非逐像素比對，而是將街景與衛星圖像都轉化為獨特的數字編碼——就像給每張圖打上「指紋」。

為此，團隊使用了名為「視覺Transformer」的深度學習模型。它把圖像切割成小塊，分析其中的模式，比如識別出高樓、圓形噴泉或交通環島，然後將這些識別結果轉化為一串數字。ChatGPT也是基於類似的架構，只不過它分析的是文字而非圖像。

澳大利亞國立大學的Hongdong Li形容，這種編碼就像圖像的指紋。模型通過比較街景與資料庫中所有航拍圖的「指紋」，迅速找出最相似的前五張，再通過加權平均推算出最可能的位置。

相關成果發表在《IEEE地球科學與遙感彙刊》上。Li評價道，雖然這並非全新的理論，但在速度和記憶體效率上，它確實代表了實質性進步。

有些專家對此保持謹慎，比如華盛頓大學的Nathan Jacobs認為，這篇論文不算「劃時代」。但Li持不同意見，他指出，這種基於哈希的方法讓匹配速度提升數倍，而存儲僅需35MB，相比下一個最小模型的104MB節省了近三分之二。

在實驗中，該模型在美國產航拍資料庫中匹配地面圖像的平均耗時僅0.0013秒，而此前最快的模型需要0.005秒。換言之，它快了近四倍。

Ren表示，這種方法比傳統的圖像定位技術更高效。Li也認可其可信度，指出哈希技術確實是實現速度與緊湊性的成熟途徑。

當然，要想讓這種方法在真實環境中普及，還需要更多驗證。Li指出，研究尚未充分考慮季節變化或雲層遮擋等複雜因素。Ren回應稱，未來可通過引入來自不同地區的圖像，提升模型的穩健性。

展望未來，這項技術的潛力令人期待。它不僅能用於自動為老照片添加地理標籤，更可在自動駕駛導航系統中充當「備用GPS」。當衛星信號失效時，這種AI能迅速通過周圍建築識別出所在位置。

Li認為，這項技術或許還能在五年內用於應急救援。

而在國防應用上，它的潛力更大。正如Jacobs所說，如果一張恐怖分子訓練營的照片沒有定位信息，如何在幾秒內找到確切位置？這種新AI，也許就是答案。

（示意圖）

責任編輯：時方　來源：煎蛋網轉載請註明作者、出處並保持完整。

新算法可快速對街道照片定位 準確率高達97%