IT之家 5 月 23 日消息,Anthropic 公司在北京時間今天(5 月 23 日) 0 點 30 分舉辦的活動中,推出了 Claude Opus 4 和 Claude Sonnet 4 新一代語言模型,在結構化推理、軟件工程和自主代理行為等領域實現重大進步。

Claude Opus 4:復雜推理與軟件開發的巔峰之作

IT之家援引博文介紹,Claude Opus 4 被定位為 Anthropic 迄今最強大的模型,專為處理復雜的推理流程和軟件開發場景設計。

測試數據顯示,該模型在 SWE-bench 基準測試(評估模型解決真實 GitHub 問題的能力)中準確率達到 72.5%;在 TerminalBench 測試(在多步驟終端代碼生成任務中驗證模型表現)中準確率為 43.2%。

更令人矚目的是,Opus 4 在軟件環境中展現出強大的自主行為,得益于改進的內存管理、更廣泛的上下文保留以及更強大的內部規劃機制,據 Rakuten 測試數據,可連續進行近 7 小時的代碼生成和任務執行,刷新 AI 世界紀錄,遠超前代 Claude 3 Opus(不到 1 小時)。

地表最強編程AI:Claude 4系列登場,自動寫代碼7小時刷新紀錄

Anthropic 聲稱,其 AI 模型不是為了消除工作崗位,而是一種將日常工作自動化的工具。不過 marktechpost 媒體認為,Claude 4 系列問世后,將改變 AI 的使用方式,讓 AI 從完成單一任務的輔助工具,轉換為具備更強、更廣泛功能的“AI 同事”,可以自動工作幾乎一個完整的工作班次。

地表最強編程AI:Claude 4系列登場,自動寫代碼7小時刷新紀錄

Claude Sonnet 4:平衡性能與成本的通用選擇

Claude Sonnet 4 取代了前代 Claude 3.5 Sonnet,以更穩定的架構提升速度與質量,同時未顯著增加計算成本。該模型針對中規模部署優化,適合需要在成本與性能間權衡的場景。

盡管推理能力不及 Opus 4,但 Sonnet 4 繼承了許多架構升級,支持多文件代碼導航、中間工具使用和結構化文本處理,延遲表現更佳。它成為 Claude.ai 免費用戶的默認模型,并通過 API 提供服務,適用于輕量開發工具、用戶助手和分析流程。

地表最強編程AI:Claude 4系列登場,自動寫代碼7小時刷新紀錄

技術亮點與部署方式

兩款模型均具備混合推理能力,提供“快速模式”(Fast Mode)用于低延遲的簡短對話任務,以及“擴展思考模式”(Extended Thinking Mode)用于需要深度推理和多輪代理行為的復雜任務。

這種雙模式策略讓用戶能根據任務復雜度靈活分配計算資源。此外,Claude Opus 4 和 Sonnet 4 可通過 Anthropic 的 Claude API、Amazon Bedrock 和 Google Cloud Vertex AI 等多個云平臺訪問,支持從自主代理到代碼分析等多種企業應用場景。

標題:地表最強編程AI:Claude 4系列登場,自動寫代碼7小時刷新紀錄

地址:http://www.sme-os.com/kongdiao/264583.html