當審查大國遇上「有問必答」的ChatGPT ＊阿波羅新聞網

近日，美國科技公司OpenAI開發的聊天機器人ChatGPT引發中國科技界關注。但隨後有消息顯示，中共官方要求迅速對此整改，研發中的「中國版ChatGPT」如未經網信辦評估也「不得上線」。本台記者唐家婕就此專訪了台灣AI實驗室創始人、美國微軟公司原人工智慧團隊（AI.R.）的亞太研發總監杜奕瑾，請他就當前ChatGPT在中國的發展狀況發表了看法。

ChatGPT在中國「說錯話」？

在中國，「說錯話」的人可能會被刪帖封號，甚至被當局以「尋釁滋事」罪找麻煩；但如果「說錯話」的是機器人呢？

美國科技公司OpenAI開發的聊天機器人ChatGPT大火，這是一款可以向人一樣自然對話的語言機器人，它還可以藉由用戶的反饋做出不同的回應並持續學習。

中國網友迫不及待地透過VPN使用ChatGPT，探索各種在中國被防火牆屏蔽的「禁忌話題」。21日傳出，中共官方出手要求迅速整改下線ChatGPT代理服務，且研發中的「中國版ChatGPT」未經網信辦評估「不得上線」。

ChatGPT到底是什麼跨時代的AI發明？當言論審查大國遇上會聊天、會學習的對話機人時，ChatGPT在中國會產生什麼變形？中美在AI領域的競爭朝什麼方向前進？決戰點又在哪裡呢？大概沒有誰比台灣AI實驗室創始人杜奕瑾（Ethan Tu）更適合解答這些疑問。

現年47歲的杜奕瑾在台灣高雄長大，大二時在台大宿舍里架設了BBS站PTT，PTT長成台灣最具影響力的線上論壇。杜奕瑾的科技探索之路沒有就此停歇，他參與了台灣第一個入口網站蕃薯藤搜尋引擎的建立，隨後到美國國家衛生研究院（NIH）從事基因序列相關檢測研究。

2006年至2017年，杜奕瑾加入美國微軟公司進行搜尋引擎bing的開發，以及擔負起微軟人工智慧的研究工作，成為微軟人工智慧團隊（AI.R.）首席亞太區研發總監。他見證了北京微軟研究院培育出一批批中國人工智慧人才的年代，也在第一線看到美中人工智慧發展的不同路徑。

2017年，杜奕瑾離開微軟返台創立非政府、非營利導向的台灣人工智慧實驗室（Taiwan AI Labs）。

中國能複製出ChatGPT嗎？

記者：Ethan你好，謝謝你接受自由亞洲電台的訪問。ChatGPT從去年11月30日推出，到現在快三個月。在你看來，ChatGPT會造成轟動的原因是什麼？幫我們科普一下，它在AI發展又有什麼重要的意義？

杜奕瑾：ChatGPT是一個突破性的Conversational AI（對話人工智慧），它可以依照使用者的問題很自然流暢地回答，而且它是可以引經據點，講得頭頭是道。再來，因為它的文本量很多，它的語言模組（language model）夠複雜，所以其實你可以跟它有各種的互動。

你可以請它假裝用某個人的口吻去回答你，可以讓它寫程式、寫歌、產生詩詞，甚至它的對話里有contextual（上下文語境），就是你可以藉由之前跟它講的對話，與它之後的回答有先後文的關係。這個在過去來講，是模型對話的很大的突破。

記者：現在ChatGPT大熱，百度、阿里巴巴，甚至許多中國科技公司都誓言要推出相關的產品。北京政府上周剛發布的《人工智慧產業發展白皮書》也寫明，要「支持頭部企業打造對標ChatGPT的大模型」，無條件開放超過15000個公部門的數據集供AI培訓。在你看來，中國複製得了ChatGPT嗎？

杜奕瑾：這種語言模型生成（技術）現在不是一個什麼交易秘密，因為它的Instruct GPT（編按：ChatGDPT的前身，在2022年一月釋出）的技術讓大家可以知道是怎麼運作的。再來談到中國的資料文本量，AI訓練要非常多的文本量，因為大家都做過搜尋引擎，要這麼多的文本量其實不是那麼的複雜。

我覺得比較特別的是，如果要去訓練出這個自然對話模型，有幾個關鍵因素：

第一，我覺得在美國這個地方去訓練ChatGPT模型因為它的內容流動比較自由，我們在內容多元性來說，可以拿到比較多元的資訊。

另外，它（語言機器人）產生的結果在相對自由的地區，不會影響到你的這家公司的發展。但是在言論比較緊縮的地方，由於ChatGPT可能可以產生各種不預期的內容。其實相對來講，它去發展語言模型的風險會比較高。

如果說要講資料量的多寡或者中國人或美國人的聰明度，我相信都是差不多。但是你如果說是有差別的，可能就是在制度面的這部分。

當審查大國遇上「有問必答」的語言機器人

記者：當AI機器人回答出對中共當局來說「敏感」的答案，App就被封、公司被處罰了。在你看來，中國網際網路的審核，對發展中國版的ChatGPT有什麼影響呢？相較於美國的ChatGPT從谷歌、推特、Reddit上去收集文本，中國從百度、微博上去收集文本，會訓練出什麼樣的語言機器人呢？

杜奕瑾：第一，應該說你在這個內容是受到限制的市場，拿到的文本也已經是受到限制的內容，也就是說有些資料是沒有在這裡面的。所以你相對來講，（AI訓練）得到的結果也不會那麼的完整。

第二，語言生成模型也是可以生成不在原本文本訓練的內容規範裡面。你可以藉由一些contextual（上下文）的輸入，去注入你想要的結果，它甚至有可能產生你本來不預期的結果。

我之前在微軟原本負責對話機器人，我負責微軟Cortana，也包含中國市場。在美國，我們曾推出一個「Tay」對話機器人（ChatBOT），這個對話機器人因為產生種族歧視、仇恨相關的言論，我們在不到一天的時間在美國市場下架。相較於在美國市場，你（公司）可能只是面對道德上面的攻擊；但在中國市場，你有可能會因為這個對話引擎講一些「不恰當」的話，造成你的組織、你的這整個系統在這個市場被封閉。

其實在這段時間，一些中國山寨的ChatGPT，它只是在中國加一個服務，然後再透過美國的ChatGDP得到答案之後，再送回中國。像這種山寨ChatGPT在中國很多很快就被封閉的其中一個原因，就是因為它會產生一個不可預期的回答，這對提供服務的組織來講是有風險的。

記者：但反過來講，有沒有可能訓練出一個符合威權政府、獨裁政府需要的對話機器人呢？

杜奕瑾：不排除是有可能。在發展出網路的時代，大家原本覺得網路可以自由的表達，但因為在威權國家會以限縮網域名稱、關鍵字，管制關鍵字的方式去限縮相關言論。

但是這種語言生成式模型，封閉這些關鍵敏感的言論會比過去的更難。因為它其實是可以繞著說，還是可以把一些「不恰當」的內容說出來。

ChatGPT：進化版的鍵盤俠？

記者：什麼叫做繞著說出來？有什麼例子嗎？

杜奕瑾：比如說，在美國市場也有一些比較敏感的內容，你不能在ChatGPT裡面去講到違反一些法令，像是推薦藥品、醫療等內容。但是你還是可以換個話去說（問機器人），然後它（對話機器人）有可能講得出一些可能會違法律規範的內容。

記者：也就是說，這是一個會學習的語言機器人，它可能像是進化版的鍵盤俠，比現有的審查工具更厲害了？

杜奕瑾：對，所以其實現在也有一些評論家討論ChatGPT最危險的就是：它可能會一本正經的胡說八道。在自由的國家或許大家知道它在胡說八道是無所謂，但是在有些地方你說錯話，是會有嚴重的後果，甚至是違反當地的法規。

同理，在有些地方，大家會比較不敢去做生成式模型的發展，就因為它的相對的、你需要做到的審查的規格就是更高。

ChatGPT會成為散布假消息的幫凶嗎？

記者：中國官宣已經出來指責ChatGPT在涉疆問題上和美政府口徑一致，說ChatGPT「在西方的宣傳活動帶有重要角色」。你會怎麼看這樣對Open AI的指控？

杜奕瑾：人工智慧在訓練的時候，其實它文本的內容會一定程度的影響到它生成模型之後，生成內容的傾向。如果它的文本內容原本就是在以美國市場為主的文本內容來講話，訓練出來當然就是傾向這個市場原本有的文本內容。

我覺得，這可能不是一個特別去選擇的結果，而是因為它訓練的來源主要是在OpenAI這邊的樣本。

記者：反過來說，中國政府生成語言機器人，傳授的就是中國視角的論述模式？

杜奕瑾：其實甚至不需要訓練，只要用ChatGPT的語言模型拿來做應用，就可以影響它去有中國視角的結果。以中國現在的能力，要去訓練一個ChatGPT運用在自由市場，我相信這個能力絕對是有的。

記者：這聽起來可以被濫用成假消息、宣傳的工具？

杜奕瑾：所以現在已經開始有很多科技倫理的議題，如果這種大型語言模型是未來會被廣泛應用的話，當然會被應用在好的地方，幫人類做很多事情，寫程式、創作、總結文本。但它也能是你一個助理寫手，你可以用它換個口吻寫成一個負面的、虛假的報導。

如果說這個能力被濫用的話，它也有可能被用來作為這種假消息傳送的工具；而相對應的假消息防禦的組織會更難去抵禦，因為它是可以很容易大量地依照不同的新聞來源去生成類似、但是虛假的內容。

中美AI大比拼

記者：現在談中國跟美國的人工智慧競爭時，我們常聽到中國AI的研究已經領先了，甚至學術論文已經超越美國。你在美中產業界幾十年，觀察到的是這樣的趨勢嗎？

杜奕瑾：中國訓練起來的學生有一個習慣，當我們使用哪個KPI作為指標的時候，中國一定可以做到領先指標。所以，當領先指標用在模型研發上，變成美國做了一個樣本，中國就一定會比它更多。

但領先指標代表的意義是什麼，不見得是可以有更好的結果。就像大家會思考，為什麼人工智慧的領域有很多突破性應用都是從美國開發之後，中國才開始去複製，或者去做到更進一步？有一個原因就是，中國太重視指標，以至於它在指標各項去做領先的時候，其實在創新突破上反而是欠缺的。

中國有非常優秀的學生，但為什麼在中國發表這麼多論文之後，比較突破性的發展還是從美國這邊發生？其實不是競爭力的關係，而是環境以及人思考的方式去造就不同發展的方向。這些不同發展方向，不見得是從我們傳統這些指標可以決定哪邊比較優秀的。

記者：那麼，美中AI發展的方向有什麼不同？

杜奕瑾：就我過去的經驗，在美國發展人工智慧的領域比較是屬於就是由下而上。比如說BigTech（科技公司引領）這種模式，以人為本，出發點是當我們在思考未來人類有什麼需要，做出各種不同的嘗試。

中國會比較是屬於Big Government（大政府引領）的這種模式，就是當我們看到比如美國的什麼領先指標，我們就大家齊心齊力共同去做一個比它更好、更強、更厲害的相關的生成模型。所以我覺得，中美發展的驅動力不同、環境不同；還有像我們剛才講，在比較自由的市場跟比較緊縮的市場，會導致你（開發者）選擇的題目也會不一樣，以至於你可以看到它落地的應用的範圍也會不一樣。

記者：這我就想到美國公司做出了創新的IOS系統，中國公司在這之上去長出了Wechat、Tiktok；美國公司特斯拉釋出了自動駕駛技術開原始碼，過去幾年，中國科技公司往這個領域投資說要彎道超車。那一個關鍵的AI戰場會在哪個領域呢？會是ChatGPT嗎？

杜奕瑾：在軟體以及人工智慧的這個世界有一個很重要，當你有一個領先指標出現的時候，除非你做一個市場區隔，就像Google出現的時候你再做一個great firewall，因為中國市場基本上也夠大，那中國就會發展出自己特色的人工智慧或軟體工業。

但是如果說這個市場區隔沒有做出來的話，因為通常跑在前面的，不管是軟體或是人工智慧引擎，它會一定程度累積到更多的使用者、搜集到更多的資料，所以其實你如果是想純粹去用複製的方式去做到一個生成式模型，其實是很難去超越現在ChatGPT已經做到的成果。

美國市場其實有一個優勢，相對來講比較多元、比較自由，所以即使是這類高端人才的人數不見得比中國多，但在這種環境之下，它孕育出來的成果就是會比較多，而不是從既有架構去做複製，因此突破性的發展在這種市場是比較容易發生的。

記者：你怎麼評估晶片出口限制對中國發展AI的影響呢？

杜奕瑾：對，我想如果說只是用來作為訓練ChatGPT，未來的這種大型的語言模型一定需要很大的運算能力，你擁有越多有運算能力的組織，訓練這個大型的語言模型就會越有效率。

我相信，中國現有的算力應該是足夠讓中國去做訓練的，但當你要把它用來大量廣泛的使用，以及把人工智慧的算法變成在每個地方都可以使用，這就需要更多AI晶片設備。相對來講，（缺少晶片）你的未來的發展可能就會受到限制。

人工智慧未來的決戰點：確保人權、隱私

記者：你參與微軟在美國、中國的人工智慧發展幾十年後決定回到台灣創立AI實驗室，你為什麼看好台灣在AI領域的發展？

杜奕瑾：台灣的言論新聞自由、經濟自由，造就的土壤讓這邊的人也能非常多元、有創新能力。當我們在講一個人工智慧領域的發展，你需要有多元的內容以及文化，台灣是在亞太區域很有代表性。

另外一方面，台灣自己本身人工智慧的運算的能力、人工智慧相關的晶片以及相關的硬體設備在全球都是領先地位。在台灣做人工智慧的發展，從想法到應用落地有非常大的競爭優勢。再來就是台灣在這段時間，公司部門其實都有一個有共識的共同目標，用人工智慧帶起軟體、硬體整個產業鏈。

台灣我覺得最大的優勢就是我們是一個可信賴的合作夥伴，我們跟全世界去做各種人工智慧相關的研發，講究的是code of ethics（道德準則）。我們有一套從算法的研發驗證到確效的非常嚴謹的流程，它是保障人權隱私、確保不會有偏見，以及保障這個結果及流程是可以被驗證的，這是被世界非常認同的。

以這個角度來講，過去大家會覺得人工智慧的決戰點在哪裡，資料量是一個、你的軟體的能力是一個、運算能力是一個，那另一個就是我們是不是可信任的solution provider（解決方案提供商）。

記者：能不能談比較具體的例子讓我們的讀者了解，比如台灣防疫數據的搜集及應用與中國健康碼的差別在哪裡？

杜奕瑾：我想，大家都有注意到台灣的大法官釋憲案。在台灣，對資料的人權的保障是非常的強大的，台灣政府在收集個人資料非常小心，也必須確保人權隱私。

在台灣，社交距離APP以及台灣人工智慧實驗室做科技反應相關的發展，我們第一件事情就是利用Rights-Respecting Technology（尊重人權隱私的科技），就是我們尊重數據，不把你的數據帶離你的個人裝置，中央政府並沒有一個中央的資料庫去搜集你的數據。

台灣人工智慧實驗室是第一個倡議聯邦式學習分析的機構，尊重資料所有權，也就是資料擁有者有權管理資料。這種做法比較符合歐盟的GDPR（通用資料保護規則）。這種去中心化、保障人群隱私的算法科技，其實才是未來可信任人工智慧研究的一個基礎。

記者：謝謝你接受我的訪問。

杜奕瑾：謝謝你。

責任編輯： 李廣松 　來源：自由亞洲轉載請註明作者、出處並保持完整。

當審查大國遇上「有問必答」的ChatGPT

相關新聞