
還以為 ChatGPT會一直穩坐第一?這周卻來了個反轉。Google Gemini憑藉最近爆火的 Nano Banana圖像編輯,一舉登頂 App Store免費榜,把 ChatGPT擠到第二。
這意味著,Google終於迎來了屬於自己的「爆款 AI時刻」。
而且,Gemini只是冰山一角。Google手裡還有一整套 AI工具,從寫作、畫圖,到學習筆記、視頻生成,應有盡有。今天就帶你開箱 Google的「AI全家桶」。
省流版:
Gemini,定位和 ChatGPT一樣的通用助手:包含了 nano banana(近期熱門生圖模型)、Canvas畫布、Veo3視頻生成、Storybook故事板、以及 Deep Research等功能,目前提供 Gemini2.5 Pro和 Flash兩個模型。體驗地址:gemini.google.comNotebookLM,能深入研究的知識庫:最多可上傳300個文件,能將文檔總結為音頻、視頻、思維導圖等六種類型,是學習和研究的最佳利器。體驗地址:notebooklm.googleFlow,高質量的視頻生成:支持豎屏9:16、1080p高清,價格更低,免費用戶每月送100積分。體驗地址:flow.googleAI Mode,搜索也有了推理和思考能力:在 Google搜索輸入框就能直接開啟,獲取比 AI Summary/Overview(總結)更嚴謹和翔實的結果;目前支持英文等五種語言(但目前不包含中文)。體驗地址:google.com/aiGemini CLI:一個萬能的本地助手:不只是開發工具,還能下視頻、轉 GIF、壓縮文件。體驗地址:github.com/google-gemini/gemini-cliAI Studio和 Labs Google:其他有意思的小工具,生成一段音樂,簡單學習一門新的語言,體驗最新、最全的 Google大語言模型……體驗地址:ai.dev和labs.google
Gemini:不只會聊天,更是全能工作檯近期爆火的 nano banana,最主要的官方渠道除了網頁版,就是 Gemini App。
但如果你只拿 Gemini來 P圖,那就太浪費了。它和 ChatGPT一樣,補齊了跨對話的「記憶」功能,並能與 Google生態無縫銜接。

Gemini的「記憶」功能
對我而言,這個關鍵更新,加上教育郵箱贈送的 Pro會員,足以讓我將大部分日常對話轉移過來。
Google最近更新了 Gemini免費和付費用戶具體的使用限制。免費用戶使用 Gemini2.5 Pro和 Deep Research的次數有限,但是 nano banana的單價非常便宜,所以免費用戶也有慷慨的100張生成機會。

Gemini2.5 Pro最大的優點是,每個回答都會有像 DeepSeek一樣清晰的推理過程,但是速度要快上不少。這在 ChatGPT更新到 GPT-5之後,採用全新的路由控制,自動選擇模型,優勢更為明顯。
因為 ChatGPT有時候判斷不了,我到底希望他使用什麼模型來回復;而我的表達,也不是每一次都能清晰地,讓模型知道我的意圖。

不過,更會聊天的代價是更不會幹活,和 LMArena顯示的排行榜一樣,文本能力第一,但是網頁的開發能力不及 GPT和 Claude。好在這些天,Google也是狂給 Gemini打補丁,在軟體交互上,用戶體驗越來越好。
例如,在網頁開發方面,Gemini Canvas現已支持直接點選應用中的某個元素,用自然語言即可進行修改。
Canvas畫布和 ChatGPT的畫布預覽是一樣的功能,都是非常直觀地,把我們的創意,變成應用程式、遊戲、信息圖表等內容。
Gemini畫布新增功能,選擇並詢問。現在只需點擊元素並描述所需更改,即可直觀地編輯您的網頁應用的任何部分。
其次,Gemini終於支持上傳音頻文件。這意味著,會議錄音、採訪視頻等包含豐富上下文的材料,可以直接交給 Gemini處理,省去了手動整理和編寫複雜提示詞的麻煩。
最新消息,根據 flowith創始人 Derek Nee和 Gemini3工程師團隊的交流,他發 X透露,Gemini3.0 Flash的能力將會超過2.5 Pro。

和 ChatGPT使用的條件類似,Gemini對谷歌帳號的歸屬地可能有額外的限制。
體驗地址:gemini.google.com
NotebookLM:你的最佳個人知識庫收藏了一堆英文長文、書摘,結果總是「下次再看」?NotebookLM就是專門拯救這些吃灰資料的。
你只要把幾篇文章、報告甚至書摘丟進去,它就能:
自動幫你提煉要點,生成一份條理清晰的學習筆記;如果你喜歡可視化,還能直接畫成思維導圖,讓你一眼看懂文章框架;想進一步學習?它還能基於這些資料出小測驗,逼你複習鞏固。舉個例子,我之前用它來整理過論文,NotebookLM最多支持上傳300個文件,支持的文件類型也很豐富,PDF、txt、Markdown、和音視頻文件,它都能識別。

我將297篇同一研究領域的論文上傳,NotebookLM能完全基於這些文件,生成多種形式的內容總結。
文字報告、播客預覽、視頻介紹、思維導圖、閃卡和小測驗六種形式
播客和文字報告,是 NotebookLM裡面最早提供的選項,現在它們也得到了優化。
文字報告可以選擇,直接生成為博客、說明文檔、指南等類型,甚至 NotebookLM會根據知識庫裡面的資料,提供動態建議;例如,上傳論文可能會建議創建白皮書,而新聞類文章可能會生成解釋性內容;自定義的提示現在也被允許。
而音頻播客現在更是支持80多種語言,播客類型也從概述到深入,進一步擴展到辯論和批判性思考等多種類型。
新增的視頻、Quiz測驗和 Flashcard閃卡,是我非常喜歡的功能,無論是幫助我消化這些知識,還是做進一步的內容傳播,NotebookLM都非常有用。
但論文的研究終究是比較小眾的場景,我們只是借著論文來介紹 NotebookLM的功能。對於學生和研究者來說,這絕對是 Google AI里最值得安利的工具之一。
在更普遍的應用場景中,它能勝任任何類型的知識庫構建。像是 NotebookLM官方給出的使用案例,上傳了多家公司一季度的財報,我們可以透過思維導圖,一次性清晰的了解財報的具體內容。

還有 NotebookLM與 OpenStax(免費教科書提供平台)合作,將它們受歡迎的內容,轉化成互動式筆電,包括生物學、化學、心理學、以及管理學等主題筆電。
在這個心理學知識庫中,每一章節都配有小測驗和記憶卡片,幫助我們鞏固所學知識點。
小測驗和閃卡的主題、難度都是可自定義的。而且,無論是閃卡還是測驗,只需點擊解釋,就能深入探索當前的話題;NotebookLM會生成詳細的概述,幫助我們理解閃卡定義,或解釋為什麼答錯某道題,並附有引用指向原始資料。
體驗地址:notebooklm.google
Flow電影級 AI視頻生成AI視頻熱度雖高,但能用它做什麼?始終是許多人心中的疑問。我們介紹過多個 AI視頻生成模型,不少讀者也曾留言:這種 AI視頻,究竟是給誰看的?

在 Gemini裡面,直接使用 Veo3視頻生成,Veo3目前僅支持首幀,首尾幀需要 Veo2。
Google的更新或許給出了部分答案:支持豎屏(9:16)和1080p高清。這無疑是為抖音、YouTube Shorts、Reels等短視頻社交媒體平台量身定做。
Veo3近期更新,Veo3 Fast從0.4美元每秒降價到0.15美元每秒,以及支持9:16、1080p等。
如今 AI視頻已成為一種新的內容消費品,與其被動觀看,不如親自上手一試。

提示詞:Ultra-realistic cinematic video of Shanghai, famous landmark Tower. Shot in vertical9:16 format, travel vlog style, smooth camera motion, dynamic lighting, vivid colors, highly detailed, immersive atmosphere, no text, no watermark.

除了 Sora、可靈、海螺這些比較熱門的視頻生成模型,Google的 Veo3一直在大模型競技場,文生視頻類別下,名列前茅。
前些時間爆火的第一視角穿越、ASMR切水果,金屬、兔子彈翻床的夜視監控等視頻,都是使用 Veo3生成的。

提示詞:50mm camera, close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board. The inside of the fruit is glass as well with a little bit of melting glitter. The entire scene is soft lit from the above.
不過,提示詞的優劣,是決定視頻質量的關鍵瓶頸。例如上面這個視頻,我們就是直接借鑑了 Google的官方案例。
他們解釋,好的提示詞,包括三個部分,首先是「50mm相機、特寫鏡頭」指定了相機;接著中間一大段用來提示對象和具體的視頻內容;最後一句話是進一步明確燈光和紋理。
Flow對網絡要求比較嚴格,一般在 Gemini網頁或者 App內使用同樣足夠。
體驗地址:flow.google
AI Mode支持除英文外更多語言搜索是最大的流量入口,因此 AI瀏覽器成了大模型廠商的必爭之地,儘管這條路並不好走。
Arc項目宣布停止後,重啟的 Dia瀏覽器也在前幾天,被 Atlassian以6.1億美元收購。路不好走的原因倒不是因為沒有利益,而是太多巨頭想要吞下這塊香餑餑了。
微軟在上個月宣布自己的 Edge升級為 AI瀏覽器,Copilot無縫接入到瀏覽器的每個角落,預訂餐廳和機票、跨越標籤頁的整理總結等等。OpenAI在之前推出 ChatGPT agent時,也被爆料要做自己的 AI瀏覽器。
Google當然也不會停下腳步,和我們平時用 Google搜索時看到的 AI Overview不一樣,AI Mode更像是一份深度研究報告,它會利用 Gemini2.5的高級推理和多模態能力,來處理我們的查詢輸入。
例如當我問他 iPhone Air的 esim卡到底是怎麼回事時,它會自動根據網頁內容進行整理,給出更準確的答案。

點擊上方 All,則可以切換回普通的 Google搜索
不過 AI Mode有一個缺點,是目前它還不支持中文。但前幾天,Google已經宣布支持日語、韓語、以及葡萄牙語等五種語言。他們提到構建一個全球化的 AI搜索不僅僅是翻譯,所支持的語言,應該具有本地相關性和實用性。
體驗地址:google.com/ai
Gemini CLI下載視頻,轉文件格式,統統交給它Claude Code斷供完全沒關係,Gemini CLI是真的好用。
之前我們說用這種終端工具來修改文件名,其實是最「弱」的用法了。我最近 X視頻、YouTube等視頻下載;視頻轉 GIF以及各種格式轉換;圖片壓縮、視頻壓縮,全部交給 Gemini CLI。

Gemini CLI的安裝流程相當清晰,即便遇到環境配置問題,如今的 AI也能提供可靠的解決方案。
前期的麻煩點主要集中在安裝 Node.js上,對 Windows用戶來說,終端使用沒有 macOS和 Linux友好,所以是需要一點耐心的。
Node.js安裝完成之後,按照 GitHub上指引,運行 npm/npx命令就可以安裝 Gemini CLI了。
在終端裡面輸入 gemini,會提示我們進行驗證,一般登錄 Google驗證就可以,不需要去額外創建 Gemini API之類的操作。免費用戶每分鐘有60次請求,每天1000次請求,應付日常的簡單工作流是足夠的。
終端裡面有一些非常基礎的命令,因為我們打開終端的時候,默認的資料夾是可能是整個電腦的文件,如果直接輸入 gemini,它檢索文件會比較麻煩。
正確的操作是,一些基礎命令輸入 ls:會列出當前目錄下的所有文件和資料夾;cd xxx:進入某個資料夾;mkdir xxx:創建一個資料夾。
例如第一步我們打開終端,輸入 ls,可以看到當前目錄下所有的文件和資料夾;接著我們選擇一個文件用來處理,此次需要 Gemini的項目資料夾。輸入 cd Downloads,可以看到%前面有當前目錄 Downloads的名字。接下來,我們創建一個資料夾,mkdir testing,然後再進入這個目錄,cd testing。當然也可以直接選擇一個資料夾,滑鼠右鍵,在終端中打開。輸入 gemini,它就正式接管了我們的終端,我們接下來就能用自然語言,處理許多複雜的任務了。
拿下載一個 X的視頻舉例,首先它會搜索,找到一個 yt-dlp的工具,可以用來下載視頻;接著,它會自動檢查我的電腦,是否有安裝這個工具。檢測到有安裝之後,視頻就開始下載了。
這是調用了 yt-dlp工具,而在終端環境裡面,還有非常多高效的工具,例如 FFmpeg,它是一款處理多媒體內容的強大工具。
輸入指令後,Gemini CLI會直接說它需要 yt-dlp和 ffmpeg這兩個工具;然後會自動調整解析度和幀率,以符合我提出的最終文件大小,最後它會刪除過程中的臨時文件。
我們繼續用 X視頻舉例子,這次直接要求他把這個連結的視頻下載為一個 GIF文件,並且確保 GIF文件的大小在5-10 MB之間。
除了從網絡上下載文件,Gemini-CLI也可以直接處理本地文件,例如我有一張圖片的大小,不符合平台上傳規範,我告訴它文件名,然後要求它壓縮,過程中完全不需要去找任何的在線工具。
可以用模糊語言指定圖片位置,順利定位到圖片,它會使用 ffmpeg工具來進行壓縮。不過最後它把我的原文件刪掉了,當我告訴他要求找回時,它會修改自己的 gemini.md配置文件——這相當於它的「記憶」,它會記住這次教訓,確保未來不再犯同樣錯誤。
命令行工具的種類豐富,幾乎大部分的文件都能處理,甚至有時候遇到一些壓縮包不能解壓,直接讓 Gemini CLI來處理,而不需要額外去下載對應的解壓工具。
再結合 MCP(大模型上下文協議,連接不同數據的萬能接口),Gemini CLI能做的遠遠不止是編程開發。
體驗地址:
https://github.com/google-gemini/gemini-cli
AI Studio和 Labs Google:谷歌前沿 AI試驗場Google Labs匯集了許多尚未正式發布的 AI黑科技產品,像 AI Mode、NotebookLM目前都還是實驗室產品,不過他們名聲比較大。我們也選擇了幾個有意思的小項目,雖然背後的模型都是同一個 Gemin2.5 Pro/Flash,但是可以看看模型之上,不同的軟體形態。
首先就是 Whisk,這個主打不需要提示詞,上傳照片盡情玩耍的圖片生成工具,現在還新增了 animate動畫的功能,直接將生成的圖片轉成一段視頻。

地址:
https://labs.google/fx/tools/whisk
還有學習一門語言的 Little Language Lessons,它特別的地方,是讓我們快速在 Gemini構建的一系列小實驗裡面,學習一門新的語言,直接在現實場景中應用,還能學習各種俚語表達。
我拿粵語試了一下,至少不是多鄰國裡面,來來回回的腸粉和豉汁排骨了。

地址:https://labs.google/lll/
Google實驗室還有非常多的項目,體驗地址:labs.google
講了通用大模型 Gemini2.5 Pro、圖像編輯 nano banana、視頻生成 Veo3,怎麼可以沒有 Imagen4。
Imagen4官方渠道目前是只能透過 Gemini API和 AI Studio兩種方式體驗,即便 Google Labs裡面有專門生圖的工具,ImageFX,但是使用的模型依舊是 Imagen3。
AI Studio能做的,就是體驗到 Google最新最全的各種模型。而且,在 AI Studio裡面的對話,提供了「分支」功能,我們可以保留現有對話的前提下,開啟另一個新的話題。

地址:ai.studio/ai.dev
前段時間,馬斯克還在 X上和奧特曼互撕,直接開罵,Apple和奧特曼有私下交易,不然他的 Grok怎麼登頂不了排行榜第一,憑什麼一直都是 ChatGPT。
這一番開箱下來,似乎能看到一點 Gemini「憑什麼」的端倪。Google AI幾乎是用一套完整的工作流,無縫融入我們的學習、工作和創作之中。從整理資料到激發創意,再到解放雙手,這套全家桶的核心,是希望實實在在地提升每個人的生產力。



















