一台依靠光線而非傳統計算機硬體生成圖像的人工智慧系統,可能讓能耗驟減數百倍。
通常,AI從文字生成圖像時會用到一種稱為擴散的過程。模型先學習大量圖片,並通過加入統計噪音來「破壞」它們,再把這些規律編碼成一套規則。當系統得到一張新的帶噪音的圖像時,就能反向運算,逐步還原成與文字請求相符的清晰畫面。
為了生成逼真、高解析度的圖像,這種擴散過程需要許多連續步驟,背後則是龐大的算力消耗。今年4月,OpenAI宣布其最新的圖像生成器在上線的第一周就產出了超過7億張圖片。支撐這樣的需求需要巨量的能源與水資源,用於機器運轉和冷卻。
而在加州大學洛杉磯分校,Aydogan Ozcan與同事開發出一種新的光學擴散圖像生成器,它的秘密在於一束雷射。訓練和編碼環節依舊依賴數位化處理,能耗很小;但在解碼階段,系統完全藉助光來完成,不再需要計算力。
Ozcan解釋說:「與數字擴散模型需要成百上千次疊代不同,這個方法只需一次快照就能生成圖像,除了最初的編碼外不需要額外計算。」
具體做法是,團隊先用公開的圖像資料庫訓練數字編碼器,讓它能生成可轉化為畫面的「靜態噪音」。接著,把這個編碼與一種叫作空間光調製器的液晶屏結合,物理地將噪音印刻進雷射束。當雷射穿過第二塊解碼用的空間光調製器時,目標圖像便瞬間浮現在屏幕上,再由相機捕捉。
在實驗中,這套系統成功生成了黑白數字圖像(1到9)以及基礎服裝等常見測試對象,還創作出具有梵谷風格的彩色畫作。其效果與傳統AI圖像生成器相比,並無明顯差別。
牛津大學的Alexander Lvovsky評價道:「這可能是第一個不再只是實驗室玩具的光學神經網絡,而是真正能產出有實際價值結果的計算工具。」
在能耗方面,差距尤為驚人。以梵谷風格的彩色圖像為例,這套系統每張圖只消耗幾毫焦耳的能量,大部分用於液晶屏,而傳統擴散模型則需要數百到上千焦耳。Lvovsky形象地對比說:「後者相當於電熱水壺一秒鐘的耗電量,而光學機器的耗能只相當於百萬分之一秒。」
未來若要替代現有的主流圖像生成工具,這一系統還需進一步改造以適應數據中心。但Ozcan認為,它的低能耗特性更可能在可穿戴電子設備中找到用武之地,例如人工智慧眼鏡。

梵谷原作與傳統擴散模型(左)和光學圖像發生器(右)















