霉霉說中文的視頻火了,背後這個AI工具強大到可怕＊阿波羅新聞網

作為國際巨星，「霉霉」在中國有不少粉絲，粉絲都知道「霉霉」不會講篇幅很長的中文，想聽她說中文那像盼過年似的。

讓「霉霉」隨時講中文？AI幫「霉粉」們實現了。

下面這個視頻里的「霉霉」用自己的音色和語氣，自然流暢地用中文接受採訪，就連口型都是中文口型。

有「霉粉」表示看完這個視頻一時分不清真假。

翻譯和配音演員要失業了實際上，這段視頻原本是「霉霉」全程使用英文參與一個訪談節目。她之所以可以講出自然流暢的中文，是因為一款名為 HeyGen 的一鍵翻譯視頻 AI。

這個功能可以一鍵把視頻的語音內容翻譯為其它語言，同時保持口型完美符合相應語言的發音。

目前，HeyGen 網站允許用戶上傳不超過 5 分鐘、大小不超過 500MB 的視頻文件生成翻譯視頻，支持 mp4、quicktime 和 webm 格式。

AI 先獲取了「霉霉」說的英文內容翻譯成中文，再模擬「霉霉」的音色，接著替換掉「霉霉」的口型，最後合成一個以假亂真的視頻，實現了讓「霉霉」說中文的效果。

AI 霉霉的視頻創作者是 Gorden Sun，據他說，生成 AI 霉霉的視頻僅用了 40 秒。

以前，我們想聽一個外國人說中文，需要內容校對，專人翻譯和選人配音三個步驟，最後得到的是有點兒違和的翻譯腔語音，體驗並不好。

那麼不同母語的人說任意其它語言，可以嗎？

當然可以。

只要你想，你可以用 HeyGen 的一鍵翻譯視頻功能讓蘋果 CEO 庫克講印地語，音色、口型和抑揚頓挫難辨真假，幾乎讓人覺得庫克本人就會講印地語。

這項技術的商業前景想像力充足，可用於譯製國外大片和影音資料、轉播新聞、直播發布會和直播帶貨等等。

AI 語音大爆發今年 1 月份，微軟發布了一款人工智慧工具 VALL-E，具有上下文學習的能力，只需一個人 3 秒的特定音頻作基礎，即可模仿這個人的聲音開始長篇大論，複製出這個人的音色、環境混響、情緒和語氣。

到了今年秋天，AI 語音更進一步，iPhone上的「個人聲音」功能支持用戶把 iPhone 放在約 1.5 米遠的地方錄製約一個小時的音頻，接下來用戶就可以使用「另一個自己的聲音」和他人交流。

可以預見，未來蘋果生態中許多功能會和「個人聲音」功能產生聯動，例如 Vision Pro 的虛擬形象等。國內企業也在發力 AI 語音功能，百度地圖推出了 AI 嚮導，由文心一言提供大模型服務，集行程助理、本地嚮導、聚會達人、辦事專家、城市導遊、專屬陪練和專屬嚮導為一體，已經大大超越了傳統語音導航的體驗。

網易推出了 Hi Echo 英語口語教練小程序，口語水平極高，知識面極廣，發音無限擬真，交流幾乎無場地和時間限制，像人類一樣有智慧，還不需要高額學費，讓曾從事 K12 教育行業的我為英語教師捏了一把汗。

AI 聲音有了「靈魂」談到 AI，繞不過去的就是 ChatGPT。

前不久，ChatGPT 上線了語音功能，和以前一些 AI 機械聲不同，它的聲音擬真到了令人毛骨悚然的地步。

它說話時，會加上一些組織語言的「emm」再說話，出現短暫停頓和輕微的呼吸聲，更會結合語境進行語氣處理，讓語言有自然流露的情感和態度立場。

它甚至有口音，有口齒音，有卷平舌和鼻音邊音瑕疵，有重音，會調節不同字詞句的語速。

你還可以告訴它，「假設你是一個渣男，用渣男的語氣和方式哄正在生氣的女朋友開心」。

前一秒還是「正經人」的 AI 立即換成渣男氣泡音，叫女朋友寶貝，哄女朋友喝水，還給女朋友畫餅帶她出去吃好吃的。

只要我們給 AI 一個人設，它接下來的應答都會匹配合適的聲音，真實感幾乎以假亂真。

它不是「花瓶」如果 AI 止步於此，倒也不會令人多麼驚奇，如果它有了智慧呢？

對於不少人來說，在職場重大場合如何敬酒講話是個大難題，不過這完全難不倒 AI。

有人測試過，讓 AI 在有 5 個領導的場合下敬酒說話，AI 是這樣回答的：

「王總，您的遠見卓識引領著我們不斷前進，李副總，您的勤奮和聰明才智是我們的寶貴財富，張經理，您的創新和決策能力推動著團隊的進步，劉主任，您的細心和責任感保障著我們的品質，陳處長，您的領導和支持是我們取得成功的關鍵，再座的各位領導，感謝你們的辛勤付出和無私奉獻，為了我們共同的未來乾杯。」

這番回答通過細微地用詞不同暗示了各位領導的地位，也點明了各位領導的團隊貢獻，除非有領導故意穿小鞋，否則挑不出什麼大毛病。

即使擬人聲音、角色扮演和智慧應答融為一體，可是還是有人會說和真人還有差距，往往我們忽略了一點：

在評判 AI 和真人差距時，我們總會以能想像的人類最高水準作為及格線去評判 AI，可具體到現實世界的一個個普通人，我們真能在僅僅幾秒的思考後，每次都情緒穩定、字正腔圓、語音聲調恰當、表意近乎完美地去說出一番話嗎？

捫心自問，毫無準備的情況下至少我做不到，至於正在看這篇文章的你，內心應該有個答案。

客觀來說，AI 在某些方面已超過絕大多數普通人類，只是我們不承認而已。

在享受 AI 語音為我們帶來便利的同時，不少人也開始擔心一些問題。

真假難辨幾年前為防範詐騙，很多人在收到文字轉帳或借款消息時，往往會打一個電話確定對方是不是本人，現在這個方法漸漸失靈了。

隨著算力和算法的進步，現在僅需秒級音頻即可無限擬真，複製一個人的聲音這件事變得越來越簡單，衍生了諸多問題。

今年 10月，TikTok 上「AI 歐巴馬」用著歐巴馬的人類思維方式、臉和聲音，駁斥著有關他的陰謀論。

這個 AI 歐巴馬的聲音是使用一款名為 ElevenLabs 公司開發的工具生成的，該公司去年年底推出了免費的人工智慧文本轉語音工具，能夠在幾秒鐘內生成逼真的音頻。

頗具黑色幽默的是，ElevenLabs 公司還有一款 AI 檢測工具，能夠識別 AI 內容，似乎和 PC 時代的殺毒軟體有異曲同工之妙。

《紐約時報》進行了一番測試，ElevenLabs 的 AI 檢測工具可以成功識別 TikTok 帳戶中的 AI 音頻，但如果 AI 音頻中添加了音樂或者音頻文件有一定程度失真時，檢測就失敗了。

由此可見檢測工具道高一尺，AI 技高一丈。

在日益複雜的網際網路生態中，類似這樣由 AI 生成的視頻內容越來越多，擬真度也越來越高。

AI 應答、AI 人臉和 AI 圖像猶如女媧一樣捏出了「新人類」，現在出現的極度成熟的 AI 聲音則給「新人類」注入靈魂。

一方面，我們享受著 AI 孫燕姿、AI 霉霉、AI 嚮導、AI 英語教師等帶來的便利。另一方面，如何防範 AI 使用者扭曲內容本意或造假內容變得越來越困難。

利弊幾何，不如請「霉粉」們來說一說，你們是想要一個說著英文的真人「霉霉」，還是想要一個說著中文的「AI 霉霉」？

責任編輯： 劉詩雨 　來源：愛范兒轉載請註明作者、出處並保持完整。

霉霉說中文的視頻火了,背後這個AI工具強大到可怕

相關新聞