其中,升級后的Claude 3.5 Sonnet在多個方面都有改進,特別是在編程能力上有顯著提升,而編程是它原本就非常強的領(lǐng)域,強的可怕的那種。

前幾天8歲小女孩開發(fā)Web程序的新聞刷屏了吧,她用的就是Cursor,Cursor用的就是舊版本的Claude 3.5 Sonnet,現(xiàn)在這模型又變強了!

另外,全新推出的Claude 3.5 Haiku在很多評估中表現(xiàn)也都更強了,性能與之前大杯的Claude 3 Opus相當(dāng),不僅API價格保持不變,速度與之前的版本還相似。

AI也能玩電腦了

這次更新,Anthropic還介紹了一個處于測試階段的新功能——讓模型操控電腦,一覺醒來,大模型也會玩電腦了。

Claude現(xiàn)在可以通過學(xué)習(xí)電腦技能來使用工具和軟件,而不用為每個任務(wù)設(shè)計特定工具。這項新功能可以自動化重復(fù)的流程、構(gòu)建和測試軟件,甚至執(zhí)行一些開放性任務(wù)。

看到這里,我瞬間想回到了各種外掛,還有刷單刷數(shù)據(jù)的公司。為了避免這一功能被濫用,Anthropic的團隊也會采取安全措施,包括新開發(fā)的分類器來檢測這些風(fēng)險。

目前該功能已通過API向開發(fā)者開放,開發(fā)者可以將該API集成到系統(tǒng)中,Claude便能將用戶的指令轉(zhuǎn)化為實際的命令,如查看電子表格、打開瀏覽器、導(dǎo)航到相關(guān)頁面、點擊按鈕、填寫表格等。

Claude 3.5 Sonnet是第一個在公開測試版中提供這種電腦操作功能的AI模型。目前還處于實驗階段,使用時容易出錯,在進行滾動、拖動、縮放等方面仍有挑戰(zhàn)。

Anthropic還表示,目前,Asana、Canva、Cognition、Replit等公司已經(jīng)開始探索Claude 3.5 Sonnet的新功能,特別是在電腦操作和用戶界面導(dǎo)航方面。這些公司正在使用該功能完成需要幾十甚至上百步的復(fù)雜任務(wù)。

開發(fā)者現(xiàn)在就可以通過Anthropic API、Amazon Bedrock 和 Google Cloud的Vertex AI使用電腦操作功能。

Claude 3.5 Sonnet: 行業(yè)表現(xiàn)突出,編程能力再次顯著提升

經(jīng)測試,Claude 3.5 Sonnet在多個行業(yè)基準(zhǔn)測試中表現(xiàn)都非常優(yōu)異,尤其在編程能力和工具使用任務(wù)方面取得了顯著提升。

在SWE-bench Verified測試中,編程表現(xiàn)從33.4%提升至49.0%,超過了包括OpenAI o1-preview等推理模型和專門為編程設(shè)計的系統(tǒng)。

在TAU-bench的工具使用任務(wù)中,其在零售領(lǐng)域的得分從62.6%提升到69.2%,而在更具挑戰(zhàn)性的航空領(lǐng)域,得分從36.0%提升至46.0%。

跑分僅供參考,早期客戶反饋表明,新版Claude 3.5 Sonnet在AI驅(qū)動的編程方面確實有顯著飛躍。

GitLab在測試中發(fā)現(xiàn),該模型在DevSecOps任務(wù)中的推理能力增強了約10%,并且沒有增加延遲,適合用于多步驟的軟件開發(fā)流程。

Cognition使用它進行自主AI評估,發(fā)現(xiàn)其在編程、規(guī)劃和問題解決方面的表現(xiàn)相比上一版本有了顯著提升。

The Browser Company在測試用于自動化網(wǎng)頁工作流程時,發(fā)現(xiàn)Claude 3.5 Sonnet的表現(xiàn)優(yōu)于他們之前測試過的所有模型。

安全性方面,Claude 3.5 Sonnet也表現(xiàn)良好,該模型還經(jīng)過了災(zāi)難性風(fēng)險評估,符合公司“負(fù)責(zé)任擴展政策”中的ASL-2標(biāo)準(zhǔn)。

更了不起的是,Claude 3.5 Sonnet升級版在變強的同時,價格和響應(yīng)速度方面也都跟之前一樣。

Claude 3.5 Sonnet升級版現(xiàn)已對所有用戶開放。

Claude 3.5 Haiku,現(xiàn)在的小杯相當(dāng)于此前大杯

Claude的模型中,Opus是最大的,Sonnet是中間檔,Haiku是最小的,也是最快的,與此前的Claude 3 Haiku相比,它價格不變且速度相似,但各方面都有提升。

Claude 3.5 Haiku在智能基準(zhǔn)測試中表現(xiàn)優(yōu)于Claude 3 Opus,這可是上一代的大杯啊。

而且,Claude 3.5 Haiku在編程任務(wù)方面表現(xiàn)也很強,在SWE-bench Verified測試中得分為40.6%,超過了包括舊版本的Claude 3.5 Sonnet和GPT-4o等模型。

而且,Claude 3.5 Haiku具有低延遲、改進的指令執(zhí)行能力和更準(zhǔn)確的工具使用能力,特別適合用于面向用戶的產(chǎn)品、子代理任務(wù)以及從大量數(shù)據(jù)(如購買歷史、定價和庫存記錄)中生成個性化體驗。

該模型將在本月晚些時候發(fā)布,支持通過API、Amazon Bedrock和Google Cloud的Vertex AI使用,初期只支持文本輸入,后續(xù)將增加圖像輸入功能。

分享到

zhupb

相關(guān)推薦