其中,升級(jí)后的Claude 3.5 Sonnet在多個(gè)方面都有改進(jìn),特別是在編程能力上有顯著提升,而編程是它原本就非常強(qiáng)的領(lǐng)域,強(qiáng)的可怕的那種。
前幾天8歲小女孩開(kāi)發(fā)Web程序的新聞刷屏了吧,她用的就是Cursor,Cursor用的就是舊版本的Claude 3.5 Sonnet,現(xiàn)在這模型又變強(qiáng)了!
另外,全新推出的Claude 3.5 Haiku在很多評(píng)估中表現(xiàn)也都更強(qiáng)了,性能與之前大杯的Claude 3 Opus相當(dāng),不僅API價(jià)格保持不變,速度與之前的版本還相似。
AI也能玩電腦了
這次更新,Anthropic還介紹了一個(gè)處于測(cè)試階段的新功能——讓模型操控電腦,一覺(jué)醒來(lái),大模型也會(huì)玩電腦了。
Claude現(xiàn)在可以通過(guò)學(xué)習(xí)電腦技能來(lái)使用工具和軟件,而不用為每個(gè)任務(wù)設(shè)計(jì)特定工具。這項(xiàng)新功能可以自動(dòng)化重復(fù)的流程、構(gòu)建和測(cè)試軟件,甚至執(zhí)行一些開(kāi)放性任務(wù)。
看到這里,我瞬間想回到了各種外掛,還有刷單刷數(shù)據(jù)的公司。為了避免這一功能被濫用,Anthropic的團(tuán)隊(duì)也會(huì)采取安全措施,包括新開(kāi)發(fā)的分類器來(lái)檢測(cè)這些風(fēng)險(xiǎn)。
目前該功能已通過(guò)API向開(kāi)發(fā)者開(kāi)放,開(kāi)發(fā)者可以將該API集成到系統(tǒng)中,Claude便能將用戶的指令轉(zhuǎn)化為實(shí)際的命令,如查看電子表格、打開(kāi)瀏覽器、導(dǎo)航到相關(guān)頁(yè)面、點(diǎn)擊按鈕、填寫(xiě)表格等。
Claude 3.5 Sonnet是第一個(gè)在公開(kāi)測(cè)試版中提供這種電腦操作功能的AI模型。目前還處于實(shí)驗(yàn)階段,使用時(shí)容易出錯(cuò),在進(jìn)行滾動(dòng)、拖動(dòng)、縮放等方面仍有挑戰(zhàn)。
Anthropic還表示,目前,Asana、Canva、Cognition、Replit等公司已經(jīng)開(kāi)始探索Claude 3.5 Sonnet的新功能,特別是在電腦操作和用戶界面導(dǎo)航方面。這些公司正在使用該功能完成需要幾十甚至上百步的復(fù)雜任務(wù)。
開(kāi)發(fā)者現(xiàn)在就可以通過(guò)Anthropic API、Amazon Bedrock 和 Google Cloud的Vertex AI使用電腦操作功能。
Claude 3.5 Sonnet: 多個(gè)行業(yè)表現(xiàn)突出,編程能力再次顯著提升
經(jīng)測(cè)試,Claude 3.5 Sonnet在多個(gè)行業(yè)基準(zhǔn)測(cè)試中表現(xiàn)都非常優(yōu)異,尤其在編程能力和工具使用任務(wù)方面取得了顯著提升。
在SWE-bench Verified測(cè)試中,編程表現(xiàn)從33.4%提升至49.0%,超過(guò)了包括OpenAI o1-preview等推理模型和專門為編程設(shè)計(jì)的系統(tǒng)。
在TAU-bench的工具使用任務(wù)中,其在零售領(lǐng)域的得分從62.6%提升到69.2%,而在更具挑戰(zhàn)性的航空領(lǐng)域,得分從36.0%提升至46.0%。
跑分僅供參考,早期客戶反饋表明,新版Claude 3.5 Sonnet在AI驅(qū)動(dòng)的編程方面確實(shí)有顯著飛躍。
GitLab在測(cè)試中發(fā)現(xiàn),該模型在DevSecOps任務(wù)中的推理能力增強(qiáng)了約10%,并且沒(méi)有增加延遲,適合用于多步驟的軟件開(kāi)發(fā)流程。
Cognition使用它進(jìn)行自主AI評(píng)估,發(fā)現(xiàn)其在編程、規(guī)劃和問(wèn)題解決方面的表現(xiàn)相比上一版本有了顯著提升。
The Browser Company在測(cè)試用于自動(dòng)化網(wǎng)頁(yè)工作流程時(shí),發(fā)現(xiàn)Claude 3.5 Sonnet的表現(xiàn)優(yōu)于他們之前測(cè)試過(guò)的所有模型。
安全性方面,Claude 3.5 Sonnet也表現(xiàn)良好,該模型還經(jīng)過(guò)了災(zāi)難性風(fēng)險(xiǎn)評(píng)估,符合公司“負(fù)責(zé)任擴(kuò)展政策”中的ASL-2標(biāo)準(zhǔn)。
更了不起的是,Claude 3.5 Sonnet升級(jí)版在變強(qiáng)的同時(shí),價(jià)格和響應(yīng)速度方面也都跟之前一樣。
Claude 3.5 Sonnet升級(jí)版現(xiàn)已對(duì)所有用戶開(kāi)放。
Claude 3.5 Haiku,現(xiàn)在的小杯相當(dāng)于此前的大杯
Claude的模型中,Opus是最大的,Sonnet是中間檔,Haiku是最小的,也是最快的,與此前的Claude 3 Haiku相比,它價(jià)格不變且速度相似,但各方面都有提升。
Claude 3.5 Haiku在智能基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于Claude 3 Opus,這可是上一代的大杯啊。
而且,Claude 3.5 Haiku在編程任務(wù)方面表現(xiàn)也很強(qiáng),在SWE-bench Verified測(cè)試中得分為40.6%,超過(guò)了包括舊版本的Claude 3.5 Sonnet和GPT-4o等模型。
而且,Claude 3.5 Haiku具有低延遲、改進(jìn)的指令執(zhí)行能力和更準(zhǔn)確的工具使用能力,特別適合用于面向用戶的產(chǎn)品、子代理任務(wù)以及從大量數(shù)據(jù)(如購(gòu)買歷史、定價(jià)和庫(kù)存記錄)中生成個(gè)性化體驗(yàn)。
該模型將在本月晚些時(shí)候發(fā)布,支持通過(guò)API、Amazon Bedrock和Google Cloud的Vertex AI使用,初期只支持文本輸入,后續(xù)將增加圖像輸入功能。