新鮮事 > 萬花筒 > 正文

☕列印版 ◪圖片版 ◫PDF

外國全新AI能通過聲音反推長相？你的聲音會出賣你的臉，細思恐極

【阿波羅新聞網 2022-05-10 訊】

人們聽廣播的時候，腦海中會幻想出說話者的樣貌，

她可能是個面容清秀、身材瘦小的年輕女孩，他也可能是個四十出頭、臉長肩寬的中年男人。

猜准年紀和性別，對大部分人來說不難，聲音特質已經透露出這些信息。

但猜對具體的容貌卻非常困難，人們只能回想腦海里有類似聲音的人，把他們的臉貼上去。

人的聲音和長相應該是分開的吧……

AI告訴我們：答案不對，有特定聲音的人，會有特定的長相。

最近，麻省理工大學的科學家開發出一款AI，它能通過幾秒鐘的音頻，還原出說話者的容貌，相似度非常高。

年齡、性別、種族、五官特徵、臉型、髮型、鬍鬚造型，這些它能會繪製出來……

這款AI叫作「Speech2Face」，名字說得很清楚，「從話到臉」。

科學家創造它的目的，是想知道人類能在多大程度上，通過一個人的聲音推斷出他的長相。

乍一聽上去，這像看相那樣玄學，但背後的道理其實很好理解。

人類說話靠的是振動聲帶，它是位於喉部的左右對稱的兩瓣肉。聲帶的長度和寬度是影響我們音調高或低的主要原因，因為男性的聲帶較女性更寬，所以音調更低。

聲帶振動後，聲音在我們的胸腔里嗡嗡作響，大部分從喉嚨里傳出去。

但這不是唯一的傳聲路徑，我們的臉部也充當著聲音的擴音器，顴骨、下巴、鼻子、嘴唇等都會振動，它們的厚度、結構不同，發出的聲音也不同。

電腦能捕捉到這些細微的聲音差別，繼而畫出說話者的面部特徵。

這就是AI工作的原理。

麻省理工的科學家們收集了油管上數百萬個視頻，裡面有十幾萬個人說話，他們將這些視頻輸入給Speech2Face。

Speech2Face會把視頻中人臉的特徵摘出來，製作出一張標準的正面照，這個照片基本等同對方的真人臉。

同時，它還會把聲音從聲波轉成聲譜圖，然後傳給人聲編碼器，找出其中的聲音特徵。

兩兩相對，Speech2Face就這樣學會聲音和相貌之間的關聯，不需要其他的信息。

在大量視頻的訓練下，它只需要聽3秒或6秒的音頻，就能畫出人臉。

比如，放美國情景喜劇《神煩警探》中男二霍爾特講笑話的音頻片段，Speech2Face會畫出下方右側的圖。

和飾演霍爾特的演員相比，右側的圖臉更寬和胖，但膚色和鼻子形狀與真人一樣，效果不錯。

其他測試對象還有白人老太太、非裔男子、拉美女孩和白人男性，

左邊的真人圖和右邊的AI圖對比，都挺像。

類似的對比圖在論文裡還有很多，下面這些圖的第一列是視頻截圖，第二列是電腦根據截圖轉換的正面照，第三列是AI根據聲音繪製的圖。

將第三列和前兩列對比，發現種族、性別、年齡、眉毛、髮型和發色基本都對。

為什麼眉毛和頭髮也能相似？它們又不隨聲音振動。

責任編輯：趙麗　來源：英國那些事兒轉載請註明作者、出處並保持完整。

本文網址：https://tw.aboluowang.com/2022/0510/1746571.html

上一頁 1 2 下一頁

AI 聲音長相

相關新聞