欧美自拍亚洲综合图区,看成年女人午夜毛片免费

其中，升級(jí)后的Claude 3.5 Sonnet在多個(gè)方面都有改進(jìn)，特別是在編程能力上有顯著提升，而編程是它原本就非常強(qiáng)的領(lǐng)域，強(qiáng)的可怕的那種。

前幾天8歲小女孩開發(fā)Web程序的新聞刷屏了吧，她用的就是Cursor，Cursor用的就是舊版本的Claude 3.5 Sonnet，現(xiàn)在這模型又變強(qiáng)了！

另外，全新推出的Claude 3.5 Haiku在很多評(píng)估中表現(xiàn)也都更強(qiáng)了，性能與之前大杯的Claude 3 Opus相當(dāng)，不僅API價(jià)格保持不變，速度與之前的版本還相似。

AI也能玩電腦了

這次更新，Anthropic還介紹了一個(gè)處于測(cè)試階段的新功能——讓模型操控電腦，一覺醒來，大模型也會(huì)玩電腦了。

Claude現(xiàn)在可以通過學(xué)習(xí)電腦技能來使用工具和軟件，而不用為每個(gè)任務(wù)設(shè)計(jì)特定工具。這項(xiàng)新功能可以自動(dòng)化重復(fù)的流程、構(gòu)建和測(cè)試軟件，甚至執(zhí)行一些開放性任務(wù)。

看到這里，我瞬間想回到了各種外掛，還有刷單刷數(shù)據(jù)的公司。為了避免這一功能被濫用，Anthropic的團(tuán)隊(duì)也會(huì)采取安全措施，包括新開發(fā)的分類器來檢測(cè)這些風(fēng)險(xiǎn)。

目前該功能已通過API向開發(fā)者開放，開發(fā)者可以將該API集成到系統(tǒng)中，Claude便能將用戶的指令轉(zhuǎn)化為實(shí)際的命令，如查看電子表格、打開瀏覽器、導(dǎo)航到相關(guān)頁面、點(diǎn)擊按鈕、填寫表格等。

Claude 3.5 Sonnet是第一個(gè)在公開測(cè)試版中提供這種電腦操作功能的AI模型。目前還處于實(shí)驗(yàn)階段，使用時(shí)容易出錯(cuò)，在進(jìn)行滾動(dòng)、拖動(dòng)、縮放等方面仍有挑戰(zhàn)。

Anthropic還表示，目前，Asana、Canva、Cognition、Replit等公司已經(jīng)開始探索Claude 3.5 Sonnet的新功能，特別是在電腦操作和用戶界面導(dǎo)航方面。這些公司正在使用該功能完成需要幾十甚至上百步的復(fù)雜任務(wù)。

開發(fā)者現(xiàn)在就可以通過Anthropic API、Amazon Bedrock 和 Google Cloud的Vertex AI使用電腦操作功能。

Claude 3.5 Sonnet: 多個(gè)行業(yè)表現(xiàn)突出，編程能力再次顯著提升

經(jīng)測(cè)試，Claude 3.5 Sonnet在多個(gè)行業(yè)基準(zhǔn)測(cè)試中表現(xiàn)都非常優(yōu)異，尤其在編程能力和工具使用任務(wù)方面取得了顯著提升。

在SWE-bench Verified測(cè)試中，編程表現(xiàn)從33.4%提升至49.0%，超過了包括OpenAI o1-preview等推理模型和專門為編程設(shè)計(jì)的系統(tǒng)。

在TAU-bench的工具使用任務(wù)中，其在零售領(lǐng)域的得分從62.6%提升到69.2%，而在更具挑戰(zhàn)性的航空領(lǐng)域，得分從36.0%提升至46.0%。

跑分僅供參考，早期客戶反饋表明，新版Claude 3.5 Sonnet在AI驅(qū)動(dòng)的編程方面確實(shí)有顯著飛躍。

GitLab在測(cè)試中發(fā)現(xiàn)，該模型在DevSecOps任務(wù)中的推理能力增強(qiáng)了約10%，并且沒有增加延遲，適合用于多步驟的軟件開發(fā)流程。

Cognition使用它進(jìn)行自主AI評(píng)估，發(fā)現(xiàn)其在編程、規(guī)劃和問題解決方面的表現(xiàn)相比上一版本有了顯著提升。

The Browser Company在測(cè)試用于自動(dòng)化網(wǎng)頁工作流程時(shí)，發(fā)現(xiàn)Claude 3.5 Sonnet的表現(xiàn)優(yōu)于他們之前測(cè)試過的所有模型。

安全性方面，Claude 3.5 Sonnet也表現(xiàn)良好，該模型還經(jīng)過了災(zāi)難性風(fēng)險(xiǎn)評(píng)估，符合公司“負(fù)責(zé)任擴(kuò)展政策”中的ASL-2標(biāo)準(zhǔn)。

更了不起的是，Claude 3.5 Sonnet升級(jí)版在變強(qiáng)的同時(shí)，價(jià)格和響應(yīng)速度方面也都跟之前一樣。

Claude 3.5 Sonnet升級(jí)版現(xiàn)已對(duì)所有用戶開放。

Claude 3.5 Haiku，現(xiàn)在的小杯相當(dāng)于此前的大杯

Claude的模型中，Opus是最大的，Sonnet是中間檔，Haiku是最小的，也是最快的，與此前的Claude 3 Haiku相比，它價(jià)格不變且速度相似，但各方面都有提升。

Claude 3.5 Haiku在智能基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于Claude 3 Opus，這可是上一代的大杯啊。

而且，Claude 3.5 Haiku在編程任務(wù)方面表現(xiàn)也很強(qiáng)，在SWE-bench Verified測(cè)試中得分為40.6%，超過了包括舊版本的Claude 3.5 Sonnet和GPT-4o等模型。

而且，Claude 3.5 Haiku具有低延遲、改進(jìn)的指令執(zhí)行能力和更準(zhǔn)確的工具使用能力，特別適合用于面向用戶的產(chǎn)品、子代理任務(wù)以及從大量數(shù)據(jù)（如購買歷史、定價(jià)和庫存記錄）中生成個(gè)性化體驗(yàn)。

該模型將在本月晚些時(shí)候發(fā)布，支持通過API、Amazon Bedrock和Google Cloud的Vertex AI使用，初期只支持文本輸入，后續(xù)將增加圖像輸入功能。

分享到