新聞 > 科教 > 正文

☕列印版 ◪圖片版 ◫PDF

谷歌幹掉了「等你說完才翻譯」 70+語言邊聽邊譯

【阿波羅新聞網 2026-06-12 訊】

一句話還沒說完，譯音已經響在你耳邊——而且是對方的語速、對方的語調，只慢幾秒。剛剛，Google甩出了 Gemini3.5 Live Translate。這是它最新的語音對語音翻譯模型，一句話概括：把「等你說完再翻」的老規矩，直接掀了。

Google DeepMind首席科學家 Jeff Dean親自發帖官宣，字裡行間透著一股「二十年磨一劍」的底氣：

語音翻譯是 Google跑得最久的機器學習項目之一，而這一次，它終於跑進了耳機。

把「對講機」式翻譯給掀了過去的翻譯機大家都熟。

你說一句，它憋著，等你把話說完，再吭哧吭哧翻給對方。

一來一回，節奏全斷，倆人像在打對講機。

更要命的是，真實對話從來不是規規矩矩的你一句我一句——人會搶話、會猶豫、會說半截改口。

Gemini3.5 Live Translate不這麼幹。它邊聽邊譯，話音未落，譯音先到。

這背後是一套相當微妙的平衡術：多等一會兒，上下文聽得更全，翻得更准；立刻開口，能緊緊跟住說話人，但可能猜錯後半句。

模型就在這兩頭之間逐字逐句地反覆拿捏，最終交出的效果是——輸出連貫、沒有尷尬的卡頓，全程只落後說話人幾秒。

更絕的是聲音本身。

它能保留你的語速、音高和語調——譯出來的不是冷冰冰的機器音，是帶著你說話味兒的聲音。你著急，譯音也跟著急；你慢條斯理，譯音也悠著來。

DeepMind同步放出的模型卡透了點底：這個模型基於 Gemini3 Pro打造，能吃進最長128K token的音頻上下文，評測就盯著三個指標死磕——翻譯質量、延遲、語音自然度。

換句話說，Google給它定的 KPI不是「翻得對」，而是「聊得順」。

它能一口氣認70多種語言，而且全自動識別，你中途換種語言它也能跟上，不用手動設置。環境吵也不怕，菜市場、機場、馬路邊都能用。

開發者、企業、普通人，一個不落這次 Google玩得很狠，三條線同時鋪開。

開發者，通過 Gemini Live API和 Google AI Studio公測，今天就能上手；企業，本月起在 Google Meet私測；普通人，Google Translate的安卓和 iOS版全球上線——點開 App左下角的「實時翻譯」，接上任意一副耳機就能用。

最讓打工人有感的是 Google Meet。以前它的語音翻譯只支持5種語言，而且只能在英語和其他語言之間打轉。

現在一口氣干到70+，單場會議能撐起2000多種語言組合——英語、普通話、瑞典語滿桌子飛，誰說什麼對方都能秒懂。

安卓還藏了個細節：「聆聽模式」。把手機像打電話一樣貼到耳邊，譯音直接從聽筒里鑽進來，旁人聽不到。

跟個西語導遊團、臨時沒帶耳機，掏出手機往耳邊一貼就能救急。

每月一千萬通電話光說參數太虛，看個真實場景。

Google找了東南亞的 Grab來試。司機說本地話，乘客聽到的是自己的母語，接駕常用的那幾句「你在哪」、「我馬上到」不再雞同鴨講。

要知道，Grab用戶每月要打超過1000萬次語音電話——這不是發布會上的 Demo，是真要塞進千萬次日常對話里跑的活兒。

除了 Grab，CJ ENM、LiveKit這些公司也提前上手試過，反饋都指向同一點：質量、準確度、低延遲。

開發者這邊也省了大力氣。

Agora、Fishjam、LiveKit一票平台已經接入 Gemini Live API，把最難啃的實時媒體流基礎設施全包圓了——採集、傳輸、回聲消除這些髒活累活有人扛，開發者只管做體驗。

視頻配音、多語直播、跨語言客服、在線課堂，全是現成的落點。

二十年長跑，跑進耳機里往回看一步，你會發現這事兒 Google憋了很久。

20年前，Google翻譯只是一個開創性的小實驗，想把語言這門科學，變成人和人連接的魔法。

如今每個月，它要為數十億用戶翻譯超過一萬億個單詞。

從「把文字翻成文字」，到「拍張照翻菜單」，再到今天「把你說的話實時變成另一種語言的聲音」，這條路走了整整二十年。

當然，話別說太滿。

谷歌官方自己也標了限制：目前只吃音頻輸入；遇上重口音、快速來回切語言、好幾個人搶著說、或者長時間停頓，聲音復刻還可能不穩。

它不是終點，但是一個相當能打的起點。

方向已經很清楚了。同步口譯曾經是頂尖譯員才扛得下來的活兒，一小時幾千塊，還得提前一周備稿。

現在，它正變成耳機里一個默默運轉的功能，隨叫隨到。

當語言不再是牆，剩下的，就只有人和人想不想聊了。

責任編輯：李華　來源：新智元轉載請註明作者、出處並保持完整。

本文網址：https://tw.aboluowang.com/2026/0612/2395144.html

谷歌翻譯 Gemini

相關新聞