外國全新AI能通過聲音反推長相？你的聲音會出賣你的臉，細思恐極萬花筒 ☀阿波羅新聞網

人們聽廣播的時候，腦海中會幻想出說話者的樣貌，

她可能是個面容清秀、身材瘦小的年輕女孩，他也可能是個四十出頭、臉長肩寬的中年男人。

猜准年紀和性別，對大部分人來說不難，聲音特質已經透露出這些信息。

但猜對具體的容貌卻非常困難，人們只能回想腦海里有類似聲音的人，把他們的臉貼上去。

人的聲音和長相應該是分開的吧……

AI告訴我們：答案不對，有特定聲音的人，會有特定的長相。

最近，麻省理工大學的科學家開發出一款AI，它能通過幾秒鐘的音頻，還原出說話者的容貌，相似度非常高。

年齡、性別、種族、五官特徵、臉型、髮型、鬍鬚造型，這些它能會繪製出來……

這款AI叫作「Speech2Face」，名字說得很清楚，「從話到臉」。

科學家創造它的目的，是想知道人類能在多大程度上，通過一個人的聲音推斷出他的長相。

乍一聽上去，這像看相那樣玄學，但背後的道理其實很好理解。

人類說話靠的是振動聲帶，它是位於喉部的左右對稱的兩瓣肉。聲帶的長度和寬度是影響我們音調高或低的主要原因，因為男性的聲帶較女性更寬，所以音調更低。

聲帶振動後，聲音在我們的胸腔里嗡嗡作響，大部分從喉嚨里傳出去。

但這不是唯一的傳聲路徑，我們的臉部也充當著聲音的擴音器，顴骨、下巴、鼻子、嘴唇等都會振動，它們的厚度、結構不同，發出的聲音也不同。

電腦能捕捉到這些細微的聲音差別，繼而畫出說話者的面部特徵。

這就是AI工作的原理。

麻省理工的科學家們收集了油管上數百萬個視頻，裡面有十幾萬個人說話，他們將這些視頻輸入給Speech2Face。

Speech2Face會把視頻中人臉的特徵摘出來，製作出一張標準的正面照，這個照片基本等同對方的真人臉。

同時，它還會把聲音從聲波轉成聲譜圖，然後傳給人聲編碼器，找出其中的聲音特徵。

兩兩相對，Speech2Face就這樣學會聲音和相貌之間的關聯，不需要其他的信息。

在大量視頻的訓練下，它只需要聽3秒或6秒的音頻，就能畫出人臉。

比如，放美國情景喜劇《神煩警探》中男二霍爾特講笑話的音頻片段，Speech2Face會畫出下方右側的圖。

和飾演霍爾特的演員相比，右側的圖臉更寬和胖，但膚色和鼻子形狀與真人一樣，效果不錯。

其他測試對象還有白人老太太、非裔男子、拉美女孩和白人男性，

左邊的真人圖和右邊的AI圖對比，都挺像。

類似的對比圖在論文裡還有很多，下面這些圖的第一列是視頻截圖，第二列是電腦根據截圖轉換的正面照，第三列是AI根據聲音繪製的圖。

將第三列和前兩列對比，發現種族、性別、年齡、眉毛、髮型和發色基本都對。

為什麼眉毛和頭髮也能相似？它們又不隨聲音振動。

[page]

科學家解釋說，是因為AI在數百萬視頻中找到同一類人群相似的外形特徵。比如非裔女性常是高挑眉，老年人永遠頭髮稀疏，印裔男子喜歡留鬍子，非洲男性戴頂小帽子。

在性別、種族特徵符合後，這些邊緣的外貌特徵也會被畫出來。

科學家們發現輸入的音頻越長，AI繪製的圖越準確。下圖可以看出，六秒音頻的結果明顯比三秒要好，其中有三個改對了性別、種族和年齡。

如果把一個人的不同視頻片段截出來，會發現它們和AI繪製的圖更像。

當然，Speech2Face也有翻車的時候，它有時會把音調高的男人當作女人，把聲音嘶啞的男人當作老頭。

種族也會搞錯（雖然長得仍然挺像）。

科學家說這更多表現出的是一種刻板印象，AI能找到的是符合大部分人群的特徵。

「我們使用的訓練數據來自油管上的教育視頻合集，不能代表全世界的人。」他們在論文裡寫道，「因此，就像其他機器學習模型一樣，我們的模型也受到數據分布不均的影響。」

這種刻板印象也和語言有關，當亞裔男性說英語時，Speech2Face以為他是白人男性，當他說中文時，種族又對了。

不過，亞裔女孩說英語時，結果不受語言影響，只是年齡大了些。

麻省理工的科學家們還做了一個「卡通轉換系統」，讓Speech2Face聽到音頻後繪製出說話者的卡通圖，準確率也挺高的。

這個項目挺有意思，但很多網友表示擔憂：

「那些不願露臉的油管博主現在肯定在瑟瑟發抖。」

「想想看，這技術很容易在網絡社區里被當作武器使，雖然大家都不露面。」

科學家們在論文裡也提到了隱私，他們認為不用擔心。

「我們的方法不能從聲音中復原一個人的真實身份（即他們臉部的確切圖像），因為我們的模型是捕捉多人共有的視覺特徵，只能生產大眾化的平庸面孔，不能製作特定長相。我們的AI圖像不能反映出真人的實際相貌。」

話是這麼說，可從對比圖上看，AI的結果已經很接近真人照了。

如果某些狂熱粉絲想要找到不露面的視頻博主，他們可以輕鬆知道博主的大概樣子，加上地理位置等信息，也許他們能找上門。

想想還是蠻嚇人的，不過類似的AI就算麻省理工不做，其他學校也在做了。

過去幾年，愛爾蘭、西班牙、日本和美國都在研究如何用音頻構建人臉，其中走得最遠的是卡內基梅隆大學的麗塔·辛格（Rita Singh）。

有好事者在2014年反覆向美國海岸警衛隊報假警，每通電話非常短。海岸警衛隊找到研究語音識別20年的麗塔，問她有什麼辦法。

她先是比較了人耳無法察覺的發音上的特徵，然後把報警電話分割為幾毫秒的小片段，用AI梳理它們尋找信息點。

靠著微弱的信息，麗塔不光能知道報假警的人大致長什麼樣，還能知道他所處的環境，比如房間的大小，是否有窗戶，以及牆壁用什麼材料製成。

她的AI甚至能檢測到錄音中，因為當地電網波動產生的雜音。她將雜音和電網資料庫匹配，可以知道報警者實際的位置，還有掛電話的確切時間。

最後，麗塔不僅解決了惡作劇電話，還解決了兒童性騷擾案件。

那些只露聲不露臉的罪犯，自己把自己出賣了。

AI技術就是一把雙刃劍，它可以逮捕罪犯，也可以傷害無辜者。

用聲音繪製人臉，這個技術看來是無法避免的，只能希望它以後都用在正道上吧……