新聞 > 科教 > 正文

免費的 Google,現在強得可怕

我隱隱有種感覺,AI工具快到全面提價收錢的時候了。這不完全是成本壓力帶來的被迫收費,而是它們的使用效果逐漸趨於完美。

完美這個詞有點過分,可用。可以用來拿捏用戶。使用效果能夠拿捏用戶,才有收費的資本。

舉個例子,上周在 Google Gemini2.5 Pro的支持下,把我一直想做的視頻筆記工作流完成了大部分。

視頻是美股視頻博主們的作品。我沒時間看完所有博主的視頻,但又想要多家觀點做相互印證。對視頻中的股票點位,壓力位,支撐位,市場預期,我希望有人能提煉出來,方便日後查詢和追蹤。

這個需求當然沒人做,認真的學生用手記錄,自己做筆記,做表。我很懶,經常看完就完了。給自己一個理由,咱是長線投資,不在乎一時得失。但一到要賣出或者買入的時候,又想起點位參考。於是想,如果能用代碼自動化實現,豈非完美。大模型提煉出來的文字,閱讀時間比看視頻節省80%,還能綜合多個頻道的觀點。

這件事的難點在於,中文博主口播不喜歡做字幕,沒有腳本,視頻必須做音頻轉錄才能得到文本。而且,不露臉的博主喜歡在視頻中的 K線圖上手寫標註,有時具體點位要看視頻才能做好筆記。

動手之前,我讓 Gemini幫我做了任務拆解和開發規劃。

首先,解析博主視頻頻道,得到頻道的 rss訂閱連結。通過每天刷新 rss內容得到最新一期的視頻連結。用 yt-dlp將視頻下載到本地。

然後,調用 ffmpeg對視頻進行音頻分離,得到 mp3文件。音頻轉錄到文本,我原本想在本地安裝 Openai免費的 Whisper來做,後來發現,Gemini1.5開始就支持多模態,完全可以做語音轉錄,無需本地資源還不要錢。乾脆直接將音頻發送給大模型做轉錄。

前兩部完成之後,已經可以得到帶有時間戳的完整轉錄文本以及提純後的精煉文本。一般視頻筆記做到這裡就可以結束了。但我還希望再進一步,把個股的關鍵點位結合當時視頻播放的畫面做整合分析。

Gemini告訴我,這完全可行。我可以將文本中涉及關鍵點位的時間戳發給 ffmpeg,讓它做截圖,然後對截圖進行二次分析,結合之前的轉錄文本,再做一次筆記優化。

這部分功能花了我好幾個小時。原因是大模型輸出的時間戳格式不穩定,2.5 Pro的指令遵從不好,時常將毫秒當作秒,記錄在時間戳上,導致 ffmpeg找不到對應的時間點。

最後的方案是用 Gemini1.5 Pro做完整音頻轉錄,提取時間戳,用2.5 Pro做文本處理。最終效果不錯。

事情做到這一步,還不夠好。我不想每天打開目錄去讀 markdown格式的報告,不夠好看,不夠優雅。

於是我又問 Gemini,我想跨設備閱讀,最大化便利性和可讀性,我該怎麼辦?我心裡預設的方案,構建一個 Web網頁或者發給 Notion做成雲筆記。

Gemini和 ChatGPT分別回答了我的問題,這兩個顧問一致認為 Notion是更好的選擇。ChatGPT甚至不停問我,要不要寫 python腳本幫我實現這一功能。我沒理它。

在之前的代碼編寫中,Gemini2.5 Pro出現 bug的次數不超過5次。幾乎每次都能正常運行,報告效果需要逐漸調優,但沒有編碼錯誤。以前那種代碼頻頻出錯,時間花在代碼而不是功能優化上的蠢事,已經沒有了。

我遇到的唯一問題是cline+gemini2.5 pro,如果 cline處理文件出錯,會大量消耗 API調用次數,導致免費額度很快用光。

這個問題讓我在後期只能通過 Cherry Studio和 Gemini繼續對話。好在 Gemini的代碼正確率極高,無需頻繁修改。

將優化後的報告上傳到 Notion是另一個挑戰。我對 Notion幾乎一竅不通。但 Gemini通就行了,我把報告拆解和格式優化的任務通通交給它。它甚至提出了自己的方案,把視頻截圖也上傳到 Notion,做成帶有原始素材的互動筆記。完美。

這部分代碼還在調試,但我已經想好了下一步工作。通過 Notion剛剛開放的 MCP協議,將日積月累的視頻筆記通過 Cherry Studio的 AI聊天框進行檢索。把這些自動生成的筆記當作知識庫,隨時查詢關鍵點位和財報分析。

在 Google Gemini2.5出來之前,我一直用 Cursor+ChatGPT來做規劃和編程。這一次大量使用 Gemini2.5 Pro,發現了它的不少短板,但也用出了它的強項。做規劃,提建議,不厭其煩的回答各種問題,Gemini是極佳的架構師和技術顧問。

我在開發這個工作流的過程中,不僅通過 AI完成了我想做的事,更大收穫是和 Gemini的溝通中學習到了更多知識。它並不能從一開始就精確地規劃好每一步應該怎麼做。

我們的合作是逐漸進展,慢慢深入。它帶我一步,我帶它一步。它拓展了我的知識邊界,我看到了更好的開發方向。編程,反而成了這其中最不重要的一步。我沉浸在所謂的氛圍編程中,一步步完成自己的作品。

我相信,今天我做的這一切,很快會被更快更便宜的大模型功能替代。音頻轉錄,截圖分析,你直接把視頻發給AI去看不就得了。它們現在不是不能看,而是太貴,太慢,效果不如分拆任務做得更好。在它們變得更強之前,造幾個自己的玩具,其樂無窮。

Gemini另一個強大的能力是 Deep Research,我之前為此寫過文章。最近再用的時候,我明顯感覺到 Deep Research又做了優化。它不容易死在半道上了。

模擬人工對數十上百個網站進行檢索,對信息歸類,總結,提煉要點,形成報告,我認為目前沒有其他工具比 Google Gemini的 Deep Research做得更好。ChatGPT的 Deep Research原理和 Google一樣,但在爬蟲普適性和歷史資料的沉澱上,OpenAI遠不及 Google。

所以,Google看似在 AI中稍顯落後,但未來可期。

回應我在開篇時的文字,為什麼覺得它們要開始收費了?因為在上述開發過程中,Gemini的服務會變得很慢,免費額度居然會被我用光。ChatGPT4.5第一次提示我剩餘使用次數。

這些現象預示著,不僅我感知到了 AI工具的強大,它們自己也知道。白嫖的盛宴,已近尾聲。

附一張 ChatGPT用我的照片生成的黏土版。

提示詞:

請根據附上的照片,將畫面中的角色轉化為3D Q版黏土風格角色公仔,整體放置於一張拍立得照片中,並由一隻手持握著拍立得相紙。畫面呈現出一種視覺效果:角色從拍立得照片中突破邊框、延伸進入現實世界的二維空間。

構圖比例:9:16垂直構圖

人物設定:將照片中的人物轉化為 Q版3D公仔,整體約為1/4身高比例,呈現全身,保持原照片中的服裝與造型,風格為柔軟可愛的黏土材質

背景:延續拍立得中的背景,以 Q版風格繪製,不需再有人物出現,僅作為角色背景的延伸,與照片原始場景一致

拍立得底部文字:手寫字體銀山塔林

上一篇文章有讀者喜歡封面圖,那是 midjourney畫的,放在這裡。

責任編輯: 李華  來源:大個青椒 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2025/0419/2207306.html