想像你在玩GeoGuessr:屏幕上是一棟普通的美國家庭住宅,前院修剪整齊,屋頂飄著國旗,但沒有任何地標能告訴你它在哪個州。你唯一的線索,是一組從美國各地拍攝的四萬多張低解析度航拍圖。你能找出這棟房子的位置嗎?
也許你不能,但人工智慧可以。來自中國石油大學的研究團隊開發出一種全新的機器學習模型,它能在龐大的遙感影像資料庫中搜索,與街景照片精確匹配的俯瞰圖。不論是住宅、商鋪還是工業建築,它都能迅速定位。而它真正令人驚訝的地方,在於「又小又快」。
當模型接收到一張180度視野的街景圖時,能在第一階段以高達97%的準確率縮小定位範圍,幾乎與現有最強模型持平。而在最終精準定位時,它的正確率為82%,與最先進算法的差距不到3個百分點。
但速度和效率才是它的秘密武器。研究團隊指出,該模型的運行速度至少是同類系統的兩倍,記憶體占用卻不到三分之一。這意味著,它不僅能應用於民用導航系統,更可能在國防領域大展拳腳。
研究負責人Peng Ren解釋,他們訓練AI學會忽略視角差異,專注提取兩張圖片中相同的「關鍵地標」,再將這些特徵轉換成一種共享的數字語言。
這一方法被稱為「深度交叉視圖哈希」。它並非逐像素比對,而是將街景與衛星圖像都轉化為獨特的數字編碼——就像給每張圖打上「指紋」。
為此,團隊使用了名為「視覺Transformer」的深度學習模型。它把圖像切割成小塊,分析其中的模式,比如識別出高樓、圓形噴泉或交通環島,然後將這些識別結果轉化為一串數字。ChatGPT也是基於類似的架構,只不過它分析的是文字而非圖像。
澳大利亞國立大學的Hongdong Li形容,這種編碼就像圖像的指紋。模型通過比較街景與資料庫中所有航拍圖的「指紋」,迅速找出最相似的前五張,再通過加權平均推算出最可能的位置。
相關成果發表在《IEEE地球科學與遙感彙刊》上。Li評價道,雖然這並非全新的理論,但在速度和記憶體效率上,它確實代表了實質性進步。
有些專家對此保持謹慎,比如華盛頓大學的Nathan Jacobs認為,這篇論文不算「劃時代」。但Li持不同意見,他指出,這種基於哈希的方法讓匹配速度提升數倍,而存儲僅需35MB,相比下一個最小模型的104MB節省了近三分之二。
在實驗中,該模型在美國產航拍資料庫中匹配地面圖像的平均耗時僅0.0013秒,而此前最快的模型需要0.005秒。換言之,它快了近四倍。
Ren表示,這種方法比傳統的圖像定位技術更高效。Li也認可其可信度,指出哈希技術確實是實現速度與緊湊性的成熟途徑。
當然,要想讓這種方法在真實環境中普及,還需要更多驗證。Li指出,研究尚未充分考慮季節變化或雲層遮擋等複雜因素。Ren回應稱,未來可通過引入來自不同地區的圖像,提升模型的穩健性。
展望未來,這項技術的潛力令人期待。它不僅能用於自動為老照片添加地理標籤,更可在自動駕駛導航系統中充當「備用GPS」。當衛星信號失效時,這種AI能迅速通過周圍建築識別出所在位置。
Li認為,這項技術或許還能在五年內用於應急救援。
而在國防應用上,它的潛力更大。正如Jacobs所說,如果一張恐怖分子訓練營的照片沒有定位信息,如何在幾秒內找到確切位置?這種新AI,也許就是答案。

(示意圖)
















