公認的編程開發能力第一!Claude3.7 Sonnet剛剛登頂WebDev競技場榜首。
大幅甩第二名100多分,在榜單前十的其它相鄰模型分差僅為幾分、幾十分的情況下。
那第二名是誰呢?還是Claude自己——Claude3.5 Sonnet。
WebDev榜單與我們所熟知Chatbot Arena榜單「同宗同源」,也是由LMArena(LMSYS Org)打造,不過更專注於AI編程、網頁應用開發能力。
值得一提的是,DeepSeek R1作為榜單前十唯一的開源模型排名第三,超越early-grok-3、o3-mini-high、Claude3.5 Haiku等。
對於Claude3.7 Sonnet高分登頂,有網友表示並不驚訝。
畢竟,這兩天網友們瘋狂實測Claude3.7,一次又一次被驚艷到,最新實測更是再次刷新網友對Claude3.7的認知。
Claude3.7最新實測
比如前兩天下面這個Claude3.7 Sonnet用p5js編寫布料模擬效果在網上瘋傳:
有位學者看到後,還曬出了自己1986年在MIT的碩士論文,主題正是「布料外觀建模」。他提到,過去完成這項工作需要數天時間,而現在AI只需幾分鐘就能超越他,不禁感嘆:
雖然他們現在還付我薪水,但這樣的日子還能持續多久呢?
現在,更扎心了老鐵。
網友又做出了另一版,還是帶有明暗關係的那種:
網友表示「這種效果即使是在高級圖形學課中,也很少有教怎麼做的」。
除此之外,Reddit上一位老哥的最新分享也引發網友熱議。
他表示突然想起一個自己在1997年用Visual Basic4編寫的古老應用程式,於是將這個27年前的EXE文件上傳到了Claude3.7並請求轉換為Python代碼,結果Claude不僅分析了文件組件,還在5分鐘內用Pygame寫出完美轉換且可運行的Python代碼。
這位老哥還曬出了自己與Claude3.7的聊天記錄:
網友get新玩法後紛紛開始效仿。
另外,有網友體驗了Claude3.7的新GitHub集成功能後表示「它改變了工程師理解軟體的方式」:
可以Frok一個代碼庫選擇一個特定的資料夾,然後向它提問關於代碼的任何問題,Claude還會顯示每個資料夾在上下文窗口中所占的百分比,幫助你更好地理解代碼結構和內容。
比如,Claude3.7可視化了yt-dlp(一個YouTube下載器)的工作流程:
沃頓商學院教授Ethan Mollick也放出了最新實測。
可以用Claude3.7製作一個互動式的「時光機道具,能夠穿越回過去」:
Ethan Mollick特意寫了一篇Blog介紹Claude3.7。
有意思的是,這篇Blog被Anthropic官方注意到了,官方表示Claude3.7沒有那麼大(花幾千萬美元訓練的那種)。但之後的模型規模會增長。