大杯Claude Opus 4,具備長時間穩(wěn)定處理復雜任務的能力

這次發(fā)布的Opus 4和Sonnet 4的編碼能力都很強,不僅大幅超越了上一代的Claude Sonnet 3.7,還超越了OpenAI o3和Gemini 2.5 pro,上演了王者歸來的戲碼。

值得劃重點的是,Claude Opus 4具備用較長時間來處理復雜任務的能力,這需要模型在更大的上下文環(huán)境中規(guī)劃并執(zhí)行多步驟流程,在較長的時間跨度內(nèi)整合多輪輸入而不混亂。

Anthropic表示,Claude Opus 4在需要專注投入,在需要數(shù)千個步驟的長時間復雜任務中表現(xiàn)出色,它能夠連續(xù)工作數(shù)小時。

比如,在編碼場景,Claude Opus 4能獨立完成從規(guī)劃到執(zhí)行的復雜編碼項目和agent工作流,開發(fā)者能用它來重構或轉換大型項目。

Claude獨立自行工作的能力在快速提升,有體驗過的網(wǎng)友表示,已經(jīng)讓Claude自主編碼了近七個小時。

此外,Claude Opus 4長周期處理任務的能力還能用于整合研究成果。比如,金融行業(yè)客戶可利用Claude Opus 4進行agent搜索與研究,例如連接海量市場報告以獲取行業(yè)洞察。

Claude Opus 4 擅長編碼和解決復雜問題,為前沿代理產(chǎn)品提供動力。著名AI編程工具Cursor稱其為編碼領域的最新技術,并在復雜代碼庫理解方面實現(xiàn)了飛躍。

Cognition指出 ,Opus 4擅長解決其他模型無法解決的復雜挑戰(zhàn),成功處理了以前的模型遺漏的關鍵操作。

Block首席數(shù)據(jù)和機器學習工程師Bradley Axen表示:Claude Opus 4第一個在其代理中在編輯和調(diào)試過程中提高代碼質(zhì)量,同時保持完整性能和可靠性的模型。

Claude Sonnet 4的編碼能力也很強,適合大規(guī)模日常使用

Claude Opus4 和Sonnet 4在SWE-bench Verified(真實軟件工程任務性能基準測試)上也大幅領先此前的Claude Sonnet 3.7、OpenAI最新的Codex-1、o3以及谷歌的Gemini 2.5 Pro。

與Opus 4不同,Sonnet 4平衡了性能與成本,特別適合高吞吐量的業(yè)務場景。在多Agents系統(tǒng)中,Sonnet 4非常適合作為專門處理特定任務的子Agent。

作為Claude Sonnet 3.7的升級版本,它不僅提供很強的編碼和推理能力,同時,還能準確地響應用戶的指令。

對于開發(fā)者來說,Claude Sonnet 4能夠高效完成代碼審查、漏洞修復、新功能開發(fā)等工作,還能使用Sonnet 4來管理CI/CD流程、執(zhí)行漏洞分類等工作。

此外,Anthropic認為,旅游與酒店行業(yè)客戶可使用Claude Sonnet 4近乎實時處理客戶請求并提供個性化響應。

Claude Opus 4 與Claude Sonnet 4的相同和不同

總結一下:Opus 4注重細節(jié),性能優(yōu)先,具備處理復雜任務的能力,擅長復雜工作流程和深度分析,更側重深度研究和長期任務。

而Sonnet 4注重效率,平衡了性能與成本,適合大規(guī)模部署。適用于大多數(shù)場景,適合高吞吐量的日常業(yè)務場景、實時應用和多任務處理。

兩款新模型均能在擴展思考過程中使用工具(如網(wǎng)絡搜索),交替進行推理與工具調(diào)用,持續(xù)優(yōu)化答案質(zhì)量。

此外,開發(fā)者提供本地文件訪問權限后,模型能顯著提升記憶力,提取和保存關鍵信息,以長期保持連貫性并積累隱性知識。

兩款模型均支持200K token上下文窗口,可高質(zhì)量處理或生成長篇內(nèi)容,較長的回復對于生成豐富的代碼和長篇內(nèi)容會有幫助。

Claude Opus 4和Sonnet 4都是混合模型,提供兩種工作模式,一種可以快速響應,另外一種提供深度思考推理能力,兩種模式可自由切換。

由于這些模型可以在快速直接回答與分步深度思考模式間切換,從而在關鍵行業(yè)基準測試中大幅提升多步驟工作流程的表現(xiàn)。

Anthropic增長與營收負責人Kate Jensen表示:“Claude Opus 4和Claude Sonnet 4將AI從工具變?yōu)檎嬲膮f(xié)作伙伴。我們的客戶將體驗到項目周期的大幅縮短——將原本需要數(shù)周完成的項目壓縮至數(shù)小時。”

如何從現(xiàn)在開始立刻用上Claude 4?

現(xiàn)在普通個人用戶可以通過網(wǎng)頁版或者手機客戶端使用,包括免費用戶也可以用Claude Sonnet 4,開發(fā)者可以使用Anthropic API和Amazon Bedrock提供的API開發(fā)應用。

不過,隨著新模型的推出,免費用戶現(xiàn)在只能用Claude Sonnet 4了,新的Claude Opus 4和此前的舊版本模型都需要Pro版才能用上,想體驗Claude Opus 4的用戶可以試試Amazon Bedrock。

下載上圖中的Amazon Bedrock Client客戶端,在亞馬遜云科技的后臺申請訪問Claude Opus 4和Claude Sonnet 4之后,再配置一下Access Key和Secret Key,就能在模型列表里選擇你需要的模型了。

Claude Opus 4和Claude Sonnet 4在Amazon Bedrock的推出,進一步豐富了客戶使用最先進模型的選擇,幫助客戶打造創(chuàng)新應用,同時,它具備的企業(yè)級安全防護和負責任的AI管控體系,也更適合企業(yè)用戶提供負責任的AI服務。

此次模型只升級不加價。定價與之前一樣,Opus 4 為每百萬Token輸入需要15美元,輸出需要75美元,Sonnet 4每百萬Token輸入需要3美元,輸出需要15美元。亞馬遜云科技Amazon Bedrock的價格也一樣。

分享到

zhupb

相關推薦