新聞 > 科教 > 正文

ChatGPT,將撕開谷歌的鐵幕

ChatGPT不一定能顛覆搜尋引擎,但能撕開谷歌帝國的鐵幕。

ChatGPT大火出圈的時候,人們就開始討論,它會不會顛覆搜尋引擎。畢竟,它可以為各種問題提供高質量的回答,「智能」到不可思議。直到最近,谷歌內部啟動了「Red Code(紅色警報)」,圍繞 ChatGPT,全面調整了明年在 AI領域的工作。

紅色警報是部分矽谷巨頭在公司核心業務面臨重大挑戰時,採用的一種內部響應機制。根據《紐約時報》,谷歌 CEO Sundar Pichai組織了一系列會議商討人工智慧戰略。谷歌內部包括研發、安全和信任等多個部門的團隊被重新分配工作任務,輔助開發新的 AI技術原型和產品。這樣的變化會一直持續到今年5月的 Google I/O。

谷歌是全球搜尋引擎市場的絕對霸主,全球市場份額超過90%。有人吐槽谷歌對 ChatGPT的反應太慢,已經火燒眉頭才匆忙迎戰。其實,谷歌對自然語言(NLP)的技術儲備從來沒有落下,比如去年 I/O大會上推出的對話系統 LaMDA就是成果之一。但在當時,就像 AI音箱沒能替代搜尋引擎,人們普遍也不認為對話機器人技術會在短期內創造出搜尋引擎的替代品。

事實上,即使是 ChatGPT這種新的問答技術,短期內也很難顛覆搜尋引擎。但讓谷歌緊張的問題是:當競品搜尋引擎開始引入新的技術,會給產品體驗帶來提升,這會在今天谷歌主導的搜索市場撕開一條裂縫。而作為谷歌搜索業務基石的廣告模式,則可能成為谷歌引入相同技術的巨大絆腳石。

「這樣的技術時機,為更多競爭創造了機會。」搜尋引擎創業公司 Neeva的創始人說。他表示,在2021年,他還很感到很沮喪,「因為很難擺脫谷歌的鐵腕控制。」而如今,新的技術讓他看到了借力、突破的契機。

2020年到2022年穀歌搜尋引擎的市場份額|來源:statcounter

01搜尋引擎:不完美的產品

想要理解 ChatGPT到底為何會威脅搜尋引擎,我們首先需要回歸到搜尋引擎的本質。

面對搜索框,輸入關鍵詞,這是人們習慣的方式。搜尋引擎甚至讓人們學會「帶著一個問題,換不同的關鍵詞」。但這並非搜索體驗的終極形態,而是一種妥協。因為機器不能很好地理解人的問題,只能退而求其次,以關鍵詞來索引不同的網頁和信息。

谷歌搜尋引擎部門副總裁 Pandu Nayak在3年前解釋搜尋引擎的工作原理:「我們的工作就是找出你正在搜索的內容,並從網上提供有用的信息……雖然這些年來,我們一直在不斷地提高語言理解能力,但是有時候我們仍然不能完全正確地理解它,特別是對於複雜的、或者對話性的查詢。這就是為什麼人們經常使用關鍵詞的原因之一,他們輸入一連串以為我們會理解的單詞,而非自然地提出一個問題。」

彼時,谷歌剛剛把語言處理大模型 BERT的最新技術融入搜索產品里。裝配最新的語言理解能力後,機器剛剛學會正確理解像「美學家經常站著工作嗎?(do estheticians stand a lot at work)」這樣的描述,能夠把句子裡的 Stand理解成「站立」這個動作,而不是和「stand along」(獨立)這個意思混淆。

使用了 BERT的最新技術後的搜尋引擎|來源:Google

這個看似微小的進步背後,是自然語言處理的又一次突破。語言的最大特點之一是一維線性,而人類大腦在理解的時候,能夠突破線性的結構,讓語言成為表徵複雜世界的工具。所以,人能夠在遇到 Stand這個詞的時候,根據語境和經驗將它處理成「站立」,或者是「獨立」、「代表」等其它意思。

對於不具備人類肉身經驗的機器,只能通過學習字符本身來理解語言。BERT的創新之處在於充分挖掘上下文之間句子的含義,讓機器學習每一個單詞和其它所有單詞的關係,更準確地理解語義。

僅僅兩年過去,機器理解自然語言的能力就變得不可同日而語。ChatGPT讓人們體驗了有史以來最好的對話機器人是什麼樣子。科技作者 Parmy Olson翻出了自己的谷歌搜索記錄,將最近的18個問題問了一下 ChatGPT,對比自己的體驗,她認為其中13個問題上,ChatGPT給出的答案更滿足她的需求。比如,想知道「煉乳或者脫脂奶是否更適合做南瓜派」,ChatGPT給出一段分析,就比搜尋引擎給出的一堆菜單更好。

而在我自己的寫作中,也嘗試同時使用 ChatGPT和搜尋引擎來收集資料。比如最近在寫一篇與蛋白質設計相關的文章,我就同時問搜尋引擎和 ChatGPT,「什麼是擴散模型?」「決定蛋白質結構的因素有哪些?」。搜尋引擎給出的連結往往更加全面,但是 ChatGPT組織信息的方式更加簡練,能夠幫助整合信息、梳理段落要點。

這一切都說明,讓機器直接回答一個查詢問題的可能性已經具備了。搜尋引擎的體驗提升的臨界點已經呼之欲出,其中的關鍵就是生成式 AI(Generative AI)。搜尋引擎的未來,不僅僅是索引網頁與連結,而是為每一個查詢生成相應的摘要、回答。這便是「從搜索到生成」。

如今,來到了從技術到產品化的微妙時間點。根據《紐約時報》看到的一份備忘錄,最近「Red Code」啟動後一系列的調整和應對動作,被谷歌看作一場不傷害用戶或社會的情況下部署其先進人工智慧的努力。

一位來自谷歌的經理表示,谷歌必須進入這次前沿比賽,否則行業就可能不理睬谷歌,繼續前進。他同時也表示,對於其它小公司而言,發布新型工具的擔憂更少。

02「在野黨」挑戰谷歌

搜尋引擎+ChatGPT有著巨大的潛力,但想要看到成熟的產品還需要更多時間。

如果現在,你把 ChatGPT當百科問答來用,很有可能會被騙進坑裡——因為它擅長一本正經地胡說八道、假裝自己「有知識」。一旦到了專業領域,這種胡說八道也只有專家才能分辨。Open AI的 CEO Sam Altman也表示:「我們正在試圖阻止 ChatGPT隨機編造事實」。

這也是為什麼,編程問答社區 Stack Overflow很快就宣布:不接受 ChatGPT生成的答案,官方表示:「主要問題在於,ChatGPT產生的答案錯誤率很高,卻看起來非常對」。

技術能夠提供怎樣的價值,往往在於如何將其封裝進產品,對生成式 AI也是如此。但正如谷歌經理所擔憂的,一些創業公司在產品探索上更快一步。

Neeva便是代表,公司的創始人 Sridhar Ramaswamy曾在谷歌工作15年,離職前是廣告高級副總裁。另一位聯合創始人則是 YouTube的商業化副總裁。和此前著名的 DuckDuckGo一樣,作為搜尋引擎,它想通過不追蹤隱私、不泄露個人信息來挑戰谷歌。

「現代網際網路已經變得嚴重依賴廣告,一個重要的原因,就是大型科技公司自私地利用消費者的數據和隱私。」Ramaswamy表示。他從谷歌離職,想改變用消費者數據賺錢的遊戲,帶領一個新團隊,想用更合理的產品來吸引人們。成立於2020年的 Neeva已經進行過兩輪融資,獲得了包括紅杉資本、格雷洛克在內的7700萬美元。

除了沒有廣告、不追蹤個人數據,更先進的搜尋引擎可以是什麼樣子?一個重要的方向是私人化,即能夠為每個人的習慣和偏好定製。生成式技術無疑會帶來重要的變化——為查詢生成相匹配的內容。

微博 AI Lab負責人張俊林長期從事 NLP和推薦搜索相關的研究和工作,他認為,下一代搜尋引擎的存在形式很可能是一個智能助手 APP。在技術上,則是上一代標籤索引+新一代生成式技術的結合。

以 pagerank為代表的算法,讓谷歌成為了上一代搜尋引擎領域的霸主。它以谷歌的創始人拉里・佩奇(Larry Page)的姓氏命名,這套算法的核心思想是通過計算網頁彼此之間的連結,來判斷網頁的相關性和重要性。

在未來的搜尋引擎中,當你查詢一個問題,類似 ChatGPT這樣的生成式技術,能夠事先為你閱讀相關網頁,再生成答案。同時,為了確認答案來源的可靠性,傳統搜尋引擎的會在同時附上參考來源。就像你在閱讀文章的時候可以隨時查詢注釋一樣。

Neeva最新展示的產品功能,恰好在朝這個方向發展。Ramaswamy看來,網站的互相連接可以顯示出信息源的權威性。也因此,傳統的搜索模式有很大價值。Neeva想做的,是整合兩個技術的優勢來提供更好的產品。

Neeva目前正在測試 NeevaAI,與 ChatGPT的問答體驗相似,當你輸入一個問題之後,「展示一個綜合的答案,總結自與查詢相關的網站」。同時可以點擊查看與之相關的網頁來源,「參考文獻和引文直接嵌入答案,使用戶能夠確定結果的真實性和可信度。」

這個新的功能會出現在接下來的新版 App中,「這樣你就不需要在無關的連結之間滑動篩選」。Ramaswamy演示了幾個 Demo,搜索 Taylor Swift,Neeva會生成她的人物小傳,並提供來源;你也可以問「摩洛哥在世界盃上怎麼打敗了葡萄牙」,Neeva AI會為你生成小作文,來介紹那天晚上發生了什麼。

03廣告系統:谷歌的負重

而對於谷歌,想進化成先進產品形態,難點或許不在於技術,而是思考如何與已有的商業模式自洽。用 Ramaswamy的話說,「谷歌是自身成功的受害者」。而另外一位搜尋引擎的創業者則形容「谷歌有商業模式的議題」。

今天谷歌的廣告建立在關鍵詞+連結的搜索模式之上,當你在不同的連結之間跳轉、閱讀,也就給網頁廣告提供了展示空間;同時,用戶的瀏覽記錄成為了公司的數字石油,通過掌握用戶的信息偏好,谷歌更精準地投放廣告。

十多年來,這套廣告的系統是谷歌主要的收入來源。2020年,超過80%的收入來自線上廣告業務,為谷歌貢獻了1470億美元的營收;2021年,1480億美元的廣告營收貢獻了谷歌的58%的收入。

2021年穀歌收入情況|來源:eMarketer

新型的搜尋引擎,與原有的廣告系統的模式存在相悖。如果生成式 AI能夠提供答案,這就意味著,用戶會減少在連結間跳轉、瀏覽的時間——也就是減少了廣告投放的空間。「如果給你提供完美的答案,你就不需要點擊廣告了」。

另外一位前谷歌研究員瑪格麗特・米切爾則表示,「谷歌搜索是相當保守的」,谷歌試圖不破壞一個正常運轉的體系。如果新的技術,會減少用戶點擊廣告的可能性,這會不會影響谷歌如何使用它呢?

語言模型、生成式 AI的進步,必然會重塑搜尋引擎的模樣。這也是包括谷歌在內的科技公司所期待的。「我們正處於一個真正的歷史性時刻,NLP的全部潛力已經達到了科幻小說的水平。」投資者、企業家和谷歌產品副總裁 Bradley Horowitz說道。

而對於谷歌來說,不得不面對另外一個時代主題是:大公司利用數據建立的商業模式,正遭受著前所未有的嚴肅審視。谷歌面臨漫長的反壟斷審查的同時,一些公司正在嘗試用新技術,進入搜尋引擎這片市場。在數據合規、反壟斷更加嚴格的歐洲,也是 DuckDuckGo、Neeva這樣的初創搜尋引擎公司率先瞄準的市場。

「通用搜尋引擎的故事已經結束了。」IDEA研究院講席科學家,認知計算與自然語言研究中心負責人張家興表示。這也是谷歌已經打下的領地,以多年的技術積累,提供了最佳的通用實時索引產品。而在垂直搜索領域,如何為特定的公司、社區、領域提供更優內容搜索的探索才剛剛開始。但同時「大的商業模式創新,遠遠難於技術創新。」AIGC這樣的技術出現之後,人們感受到可能性和興奮,但是會不會蘊含著打的商業模式創新呢?「整個業界都在探索」。

商業模式受最嚴監管、技術又成為了新變量,谷歌必須打起十二分精神規劃未來。如果數據合規與隱私問題終有一天形成新規範,那時候,新搜索產品和隨之而來的商業模式或許也會成為場上的新存在。那時候谷歌會是一個怎樣的角色?他如今擁有的城邦是否會被侵蝕?這一切,等待技術和商業之間更深刻的碰撞與融合來回答。

責任編輯: 李冬琪  來源:極客公園 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2023/0103/1850259.html