評論 > 驚人之語 > 正文

當審查大國遇上「有問必答」的ChatGPT

作者:

近日,美國科技公司OpenAI開發的聊天機器人ChatGPT引發中國科技界關注。但隨後有消息顯示,中共官方要求迅速對此整改,研發中的「中國版ChatGPT」如未經網信辦評估也「不得上線」。本台記者唐家婕就此專訪了台灣AI實驗室創始人、美國微軟公司原人工智慧團隊(AI.R.)的亞太研發總監杜奕瑾,請他就當前ChatGPT在中國的發展狀況發表了看法。

ChatGPT在中國「說錯話」?

在中國,「說錯話」的人可能會被刪帖封號,甚至被當局以「尋釁滋事」罪找麻煩;但如果「說錯話」的是機器人呢?

美國科技公司OpenAI開發的聊天機器人ChatGPT大火,這是一款可以向人一樣自然對話的語言機器人,它還可以藉由用戶的反饋做出不同的回應並持續學習。

中國網友迫不及待地透過VPN使用ChatGPT,探索各種在中國被防火牆屏蔽的「禁忌話題」。21日傳出,中共官方出手要求迅速整改下線ChatGPT代理服務,且研發中的「中國版ChatGPT」未經網信辦評估「不得上線」。

ChatGPT到底是什麼跨時代的AI發明?當言論審查大國遇上會聊天、會學習的對話機人時,ChatGPT在中國會產生什麼變形?中美在AI領域的競爭朝什麼方向前進?決戰點又在哪裡呢?大概沒有誰比台灣AI實驗室創始人杜奕瑾(Ethan Tu)更適合解答這些疑問。

現年47歲的杜奕瑾在台灣高雄長大,大二時在台大宿舍里架設了BBS站PTT,PTT長成台灣最具影響力的線上論壇。杜奕瑾的科技探索之路沒有就此停歇,他參與了台灣第一個入口網站蕃薯藤搜尋引擎的建立,隨後到美國國家衛生研究院(NIH)從事基因序列相關檢測研究。

2006年至2017年,杜奕瑾加入美國微軟公司進行搜尋引擎bing的開發,以及擔負起微軟人工智慧的研究工作,成為微軟人工智慧團隊(AI.R.)首席亞太區研發總監。他見證了北京微軟研究院培育出一批批中國人工智慧人才的年代,也在第一線看到美中人工智慧發展的不同路徑。

2017年,杜奕瑾離開微軟返台創立非政府、非營利導向的台灣人工智慧實驗室(Taiwan AI Labs)。

中國能複製出ChatGPT嗎?

記者:Ethan你好,謝謝你接受自由亞洲電台的訪問。ChatGPT從去年11月30日推出,到現在快三個月。在你看來,ChatGPT會造成轟動的原因是什麼?幫我們科普一下,它在AI發展又有什麼重要的意義?

杜奕瑾:ChatGPT是一個突破性的Conversational AI(對話人工智慧),它可以依照使用者的問題很自然流暢地回答,而且它是可以引經據點,講得頭頭是道。再來,因為它的文本量很多,它的語言模組(language model)夠複雜,所以其實你可以跟它有各種的互動。

你可以請它假裝用某個人的口吻去回答你,可以讓它寫程式、寫歌、產生詩詞,甚至它的對話里有contextual(上下文語境),就是你可以藉由之前跟它講的對話,與它之後的回答有先後文的關係。這個在過去來講,是模型對話的很大的突破。

記者:現在ChatGPT大熱,百度、阿里巴巴,甚至許多中國科技公司都誓言要推出相關的產品。北京政府上周剛發布的《人工智慧產業發展白皮書》也寫明,要「支持頭部企業打造對標ChatGPT的大模型」,無條件開放超過15000個公部門的數據集供AI培訓。在你看來,中國複製得了ChatGPT嗎?

杜奕瑾:這種語言模型生成(技術)現在不是一個什麼交易秘密,因為它的Instruct GPT(編按:ChatGDPT的前身,在2022年一月釋出)的技術讓大家可以知道是怎麼運作的。再來談到中國的資料文本量,AI訓練要非常多的文本量,因為大家都做過搜尋引擎,要這麼多的文本量其實不是那麼的複雜。

我覺得比較特別的是,如果要去訓練出這個自然對話模型,有幾個關鍵因素:

第一,我覺得在美國這個地方去訓練ChatGPT模型因為它的內容流動比較自由,我們在內容多元性來說,可以拿到比較多元的資訊。

另外,它(語言機器人)產生的結果在相對自由的地區,不會影響到你的這家公司的發展。但是在言論比較緊縮的地方,由於ChatGPT可能可以產生各種不預期的內容。其實相對來講,它去發展語言模型的風險會比較高。

如果說要講資料量的多寡或者中國人或美國人的聰明度,我相信都是差不多。但是你如果說是有差別的,可能就是在制度面的這部分。

當審查大國遇上「有問必答」的語言機器人

記者:當AI機器人回答出對中共當局來說「敏感」的答案,App就被封、公司被處罰了。在你看來,中國網際網路的審核,對發展中國版的ChatGPT有什麼影響呢?相較於美國的ChatGPT從谷歌、推特、Reddit上去收集文本,中國從百度、微博上去收集文本,會訓練出什麼樣的語言機器人呢?

杜奕瑾:第一,應該說你在這個內容是受到限制的市場,拿到的文本也已經是受到限制的內容,也就是說有些資料是沒有在這裡面的。所以你相對來講,(AI訓練)得到的結果也不會那麼的完整。

第二,語言生成模型也是可以生成不在原本文本訓練的內容規範裡面。你可以藉由一些contextual(上下文)的輸入,去注入你想要的結果,它甚至有可能產生你本來不預期的結果。

我之前在微軟原本負責對話機器人,我負責微軟Cortana,也包含中國市場。在美國,我們曾推出一個「Tay」對話機器人(ChatBOT),這個對話機器人因為產生種族歧視、仇恨相關的言論,我們在不到一天的時間在美國市場下架。相較於在美國市場,你(公司)可能只是面對道德上面的攻擊;但在中國市場,你有可能會因為這個對話引擎講一些「不恰當」的話,造成你的組織、你的這整個系統在這個市場被封閉。

其實在這段時間,一些中國山寨的ChatGPT,它只是在中國加一個服務,然後再透過美國的ChatGDP得到答案之後,再送回中國。像這種山寨ChatGPT在中國很多很快就被封閉的其中一個原因,就是因為它會產生一個不可預期的回答,這對提供服務的組織來講是有風險的。

記者:但反過來講,有沒有可能訓練出一個符合威權政府、獨裁政府需要的對話機器人呢?

杜奕瑾:不排除是有可能。在發展出網路的時代,大家原本覺得網路可以自由的表達,但因為在威權國家會以限縮網域名稱、關鍵字,管制關鍵字的方式去限縮相關言論。

但是這種語言生成式模型,封閉這些關鍵敏感的言論會比過去的更難。因為它其實是可以繞著說,還是可以把一些「不恰當」的內容說出來。

ChatGPT:進化版的鍵盤俠?

記者:什麼叫做繞著說出來?有什麼例子嗎?

杜奕瑾:比如說,在美國市場也有一些比較敏感的內容,你不能在ChatGPT裡面去講到違反一些法令,像是推薦藥品、醫療等內容。但是你還是可以換個話去說(問機器人),然後它(對話機器人)有可能講得出一些可能會違法律規範的內容。

記者:也就是說,這是一個會學習的語言機器人,它可能像是進化版的鍵盤俠,比現有的審查工具更厲害了?

杜奕瑾:對,所以其實現在也有一些評論家討論ChatGPT最危險的就是:它可能會一本正經的胡說八道。在自由的國家或許大家知道它在胡說八道是無所謂,但是在有些地方你說錯話,是會有嚴重的後果,甚至是違反當地的法規。

同理,在有些地方,大家會比較不敢去做生成式模型的發展,就因為它的相對的、你需要做到的審查的規格就是更高。

ChatGPT會成為散布假消息的幫凶嗎?

記者:中國官宣已經出來指責ChatGPT在涉疆問題上和美政府口徑一致,說ChatGPT「在西方的宣傳活動帶有重要角色」。你會怎麼看這樣對Open AI的指控?

杜奕瑾:人工智慧在訓練的時候,其實它文本的內容會一定程度的影響到它生成模型之後,生成內容的傾向。如果它的文本內容原本就是在以美國市場為主的文本內容來講話,訓練出來當然就是傾向這個市場原本有的文本內容。

我覺得,這可能不是一個特別去選擇的結果,而是因為它訓練的來源主要是在OpenAI這邊的樣本。

記者:反過來說,中國政府生成語言機器人,傳授的就是中國視角的論述模式?

杜奕瑾:其實甚至不需要訓練,只要用ChatGPT的語言模型拿來做應用,就可以影響它去有中國視角的結果。以中國現在的能力,要去訓練一個ChatGPT運用在自由市場,我相信這個能力絕對是有的。

記者:這聽起來可以被濫用成假消息、宣傳的工具?

杜奕瑾:所以現在已經開始有很多科技倫理的議題,如果這種大型語言模型是未來會被廣泛應用的話,當然會被應用在好的地方,幫人類做很多事情,寫程式、創作、總結文本。但它也能是你一個助理寫手,你可以用它換個口吻寫成一個負面的、虛假的報導。

如果說這個能力被濫用的話,它也有可能被用來作為這種假消息傳送的工具;而相對應的假消息防禦的組織會更難去抵禦,因為它是可以很容易大量地依照不同的新聞來源去生成類似、但是虛假的內容。

中美AI大比拼

記者:現在談中國跟美國的人工智慧競爭時,我們常聽到中國AI的研究已經領先了,甚至學術論文已經超越美國。你在美中產業界幾十年,觀察到的是這樣的趨勢嗎?

杜奕瑾:中國訓練起來的學生有一個習慣,當我們使用哪個KPI作為指標的時候,中國一定可以做到領先指標。所以,當領先指標用在模型研發上,變成美國做了一個樣本,中國就一定會比它更多。

但領先指標代表的意義是什麼,不見得是可以有更好的結果。就像大家會思考,為什麼人工智慧的領域有很多突破性應用都是從美國開發之後,中國才開始去複製,或者去做到更進一步?有一個原因就是,中國太重視指標,以至於它在指標各項去做領先的時候,其實在創新突破上反而是欠缺的。

中國有非常優秀的學生,但為什麼在中國發表這麼多論文之後,比較突破性的發展還是從美國這邊發生?其實不是競爭力的關係,而是環境以及人思考的方式去造就不同發展的方向。這些不同發展方向,不見得是從我們傳統這些指標可以決定哪邊比較優秀的。

記者:那麼,美中AI發展的方向有什麼不同?

杜奕瑾:就我過去的經驗,在美國發展人工智慧的領域比較是屬於就是由下而上。比如說BigTech(科技公司引領)這種模式,以人為本,出發點是當我們在思考未來人類有什麼需要,做出各種不同的嘗試。

中國會比較是屬於Big Government(大政府引領)的這種模式,就是當我們看到比如美國的什麼領先指標,我們就大家齊心齊力共同去做一個比它更好、更強、更厲害的相關的生成模型。所以我覺得,中美發展的驅動力不同、環境不同;還有像我們剛才講,在比較自由的市場跟比較緊縮的市場,會導致你(開發者)選擇的題目也會不一樣,以至於你可以看到它落地的應用的範圍也會不一樣。

記者:這我就想到美國公司做出了創新的IOS系統,中國公司在這之上去長出了Wechat、Tiktok;美國公司特斯拉釋出了自動駕駛技術開原始碼,過去幾年,中國科技公司往這個領域投資說要彎道超車。那一個關鍵的AI戰場會在哪個領域呢?會是ChatGPT嗎?

杜奕瑾:在軟體以及人工智慧的這個世界有一個很重要,當你有一個領先指標出現的時候,除非你做一個市場區隔,就像Google出現的時候你再做一個great firewall,因為中國市場基本上也夠大,那中國就會發展出自己特色的人工智慧或軟體工業。

但是如果說這個市場區隔沒有做出來的話,因為通常跑在前面的,不管是軟體或是人工智慧引擎,它會一定程度累積到更多的使用者、搜集到更多的資料,所以其實你如果是想純粹去用複製的方式去做到一個生成式模型,其實是很難去超越現在ChatGPT已經做到的成果。

美國市場其實有一個優勢,相對來講比較多元、比較自由,所以即使是這類高端人才的人數不見得比中國多,但在這種環境之下,它孕育出來的成果就是會比較多,而不是從既有架構去做複製,因此突破性的發展在這種市場是比較容易發生的。

記者:你怎麼評估晶片出口限制對中國發展AI的影響呢?

杜奕瑾:對,我想如果說只是用來作為訓練ChatGPT,未來的這種大型的語言模型一定需要很大的運算能力,你擁有越多有運算能力的組織,訓練這個大型的語言模型就會越有效率。

我相信,中國現有的算力應該是足夠讓中國去做訓練的,但當你要把它用來大量廣泛的使用,以及把人工智慧的算法變成在每個地方都可以使用,這就需要更多AI晶片設備。相對來講,(缺少晶片)你的未來的發展可能就會受到限制。

人工智慧未來的決戰點:確保人權、隱私

記者:你參與微軟在美國、中國的人工智慧發展幾十年後決定回到台灣創立AI實驗室,你為什麼看好台灣在AI領域的發展?

杜奕瑾:台灣的言論新聞自由、經濟自由,造就的土壤讓這邊的人也能非常多元、有創新能力。當我們在講一個人工智慧領域的發展,你需要有多元的內容以及文化,台灣是在亞太區域很有代表性。

另外一方面,台灣自己本身人工智慧的運算的能力、人工智慧相關的晶片以及相關的硬體設備在全球都是領先地位。在台灣做人工智慧的發展,從想法到應用落地有非常大的競爭優勢。再來就是台灣在這段時間,公司部門其實都有一個有共識的共同目標,用人工智慧帶起軟體、硬體整個產業鏈。

台灣我覺得最大的優勢就是我們是一個可信賴的合作夥伴,我們跟全世界去做各種人工智慧相關的研發,講究的是code of ethics(道德準則)。我們有一套從算法的研發驗證到確效的非常嚴謹的流程,它是保障人權隱私、確保不會有偏見,以及保障這個結果及流程是可以被驗證的,這是被世界非常認同的。

以這個角度來講,過去大家會覺得人工智慧的決戰點在哪裡,資料量是一個、你的軟體的能力是一個、運算能力是一個,那另一個就是我們是不是可信任的solution provider(解決方案提供商)。

記者:能不能談比較具體的例子讓我們的讀者了解,比如台灣防疫數據的搜集及應用與中國健康碼的差別在哪裡?

杜奕瑾:我想,大家都有注意到台灣的大法官釋憲案。在台灣,對資料的人權的保障是非常的強大的,台灣政府在收集個人資料非常小心,也必須確保人權隱私。

在台灣,社交距離APP以及台灣人工智慧實驗室做科技反應相關的發展,我們第一件事情就是利用Rights-Respecting Technology(尊重人權隱私的科技),就是我們尊重數據,不把你的數據帶離你的個人裝置,中央政府並沒有一個中央的資料庫去搜集你的數據。

台灣人工智慧實驗室是第一個倡議聯邦式學習分析的機構,尊重資料所有權,也就是資料擁有者有權管理資料。這種做法比較符合歐盟的GDPR(通用資料保護規則)。這種去中心化、保障人群隱私的算法科技,其實才是未來可信任人工智慧研究的一個基礎。

記者:謝謝你接受我的訪問。

杜奕瑾:謝謝你。

責任編輯: 李廣松  來源:自由亞洲 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2023/0225/1870818.html