新鮮事 > 萬花筒 > 正文

外國全新AI能通過聲音反推長相?你的聲音會出賣你的臉,細思恐極

人們聽廣播的時候,腦海中會幻想出說話者的樣貌,

她可能是個面容清秀、身材瘦小的年輕女孩,他也可能是個四十出頭、臉長肩寬的中年男人。

猜准年紀和性別,對大部分人來說不難,聲音特質已經透露出這些信息。

但猜對具體的容貌卻非常困難,人們只能回想腦海里有類似聲音的人,把他們的臉貼上去。

人的聲音和長相應該是分開的吧……

AI告訴我們:答案不對,有特定聲音的人,會有特定的長相。

最近,麻省理工大學的科學家開發出一款AI,它能通過幾秒鐘的音頻,還原出說話者的容貌,相似度非常高。

年齡、性別、種族、五官特徵、臉型、髮型、鬍鬚造型,這些它能會繪製出來……

這款AI叫作「Speech2Face」,名字說得很清楚,「從話到臉」。

科學家創造它的目的,是想知道人類能在多大程度上,通過一個人的聲音推斷出他的長相。

乍一聽上去,這像看相那樣玄學,但背後的道理其實很好理解。

人類說話靠的是振動聲帶,它是位於喉部的左右對稱的兩瓣肉。聲帶的長度和寬度是影響我們音調高或低的主要原因,因為男性的聲帶較女性更寬,所以音調更低。

聲帶振動後,聲音在我們的胸腔里嗡嗡作響,大部分從喉嚨里傳出去。

但這不是唯一的傳聲路徑,我們的臉部也充當著聲音的擴音器,顴骨、下巴、鼻子、嘴唇等都會振動,它們的厚度、結構不同,發出的聲音也不同。

電腦能捕捉到這些細微的聲音差別,繼而畫出說話者的面部特徵。

這就是AI工作的原理。

麻省理工的科學家們收集了油管上數百萬個視頻,裡面有十幾萬個人說話,他們將這些視頻輸入給Speech2Face。

Speech2Face會把視頻中人臉的特徵摘出來,製作出一張標準的正面照,這個照片基本等同對方的真人臉。

同時,它還會把聲音從聲波轉成聲譜圖,然後傳給人聲編碼器,找出其中的聲音特徵。

兩兩相對,Speech2Face就這樣學會聲音和相貌之間的關聯,不需要其他的信息。

在大量視頻的訓練下,它只需要聽3秒或6秒的音頻,就能畫出人臉。

比如,放美國情景喜劇《神煩警探》中男二霍爾特講笑話的音頻片段,Speech2Face會畫出下方右側的圖。

和飾演霍爾特的演員相比,右側的圖臉更寬和胖,但膚色和鼻子形狀與真人一樣,效果不錯。

其他測試對象還有白人老太太、非裔男子、拉美女孩和白人男性,

左邊的真人圖和右邊的AI圖對比,都挺像。

類似的對比圖在論文裡還有很多,下面這些圖的第一列是視頻截圖,第二列是電腦根據截圖轉換的正面照,第三列是AI根據聲音繪製的圖。

將第三列和前兩列對比,發現種族、性別、年齡、眉毛、髮型和發色基本都對。

為什麼眉毛和頭髮也能相似?它們又不隨聲音振動。

[page]

科學家解釋說,是因為AI在數百萬視頻中找到同一類人群相似的外形特徵。比如非裔女性常是高挑眉,老年人永遠頭髮稀疏,印裔男子喜歡留鬍子,非洲男性戴頂小帽子。

在性別、種族特徵符合後,這些邊緣的外貌特徵也會被畫出來。

科學家們發現輸入的音頻越長,AI繪製的圖越準確。下圖可以看出,六秒音頻的結果明顯比三秒要好,其中有三個改對了性別、種族和年齡。

如果把一個人的不同視頻片段截出來,會發現它們和AI繪製的圖更像。

當然,Speech2Face也有翻車的時候,它有時會把音調高的男人當作女人,把聲音嘶啞的男人當作老頭。

種族也會搞錯(雖然長得仍然挺像)。

科學家說這更多表現出的是一種刻板印象,AI能找到的是符合大部分人群的特徵。

「我們使用的訓練數據來自油管上的教育視頻合集,不能代表全世界的人。」他們在論文裡寫道,「因此,就像其他機器學習模型一樣,我們的模型也受到數據分布不均的影響。」

這種刻板印象也和語言有關,當亞裔男性說英語時,Speech2Face以為他是白人男性,當他說中文時,種族又對了。

不過,亞裔女孩說英語時,結果不受語言影響,只是年齡大了些。

麻省理工的科學家們還做了一個「卡通轉換系統」,讓Speech2Face聽到音頻後繪製出說話者的卡通圖,準確率也挺高的。

這個項目挺有意思,但很多網友表示擔憂:

「那些不願露臉的油管博主現在肯定在瑟瑟發抖。」

「想想看,這技術很容易在網絡社區里被當作武器使,雖然大家都不露面。」

科學家們在論文裡也提到了隱私,他們認為不用擔心。

「我們的方法不能從聲音中復原一個人的真實身份(即他們臉部的確切圖像),因為我們的模型是捕捉多人共有的視覺特徵,只能生產大眾化的平庸面孔,不能製作特定長相。我們的AI圖像不能反映出真人的實際相貌。

話是這麼說,可從對比圖上看,AI的結果已經很接近真人照了。

如果某些狂熱粉絲想要找到不露面的視頻博主,他們可以輕鬆知道博主的大概樣子,加上地理位置等信息,也許他們能找上門。

想想還是蠻嚇人的,不過類似的AI就算麻省理工不做,其他學校也在做了。

過去幾年,愛爾蘭、西班牙、日本和美國都在研究如何用音頻構建人臉,其中走得最遠的是卡內基梅隆大學的麗塔·辛格(Rita Singh)。

有好事者在2014年反覆向美國海岸警衛隊報假警,每通電話非常短。海岸警衛隊找到研究語音識別20年的麗塔,問她有什麼辦法。

她先是比較了人耳無法察覺的發音上的特徵,然後把報警電話分割為幾毫秒的小片段,用AI梳理它們尋找信息點。

靠著微弱的信息,麗塔不光能知道報假警的人大致長什麼樣,還能知道他所處的環境,比如房間的大小,是否有窗戶,以及牆壁用什麼材料製成。

她的AI甚至能檢測到錄音中,因為當地電網波動產生的雜音。她將雜音和電網資料庫匹配,可以知道報警者實際的位置,還有掛電話的確切時間。

最後,麗塔不僅解決了惡作劇電話,還解決了兒童性騷擾案件。

那些只露聲不露臉的罪犯,自己把自己出賣了。

AI技術就是一把雙刃劍,它可以逮捕罪犯,也可以傷害無辜者。

用聲音繪製人臉,這個技術看來是無法避免的,只能希望它以後都用在正道上吧……

阿波羅網責任編輯:趙麗

來源:英國那些事兒

轉載請註明作者、出處並保持完整。

家在美國 放眼世界 魂系中華
Copyright © 2006 - 2024 by Aboluowang

投稿 投稿