圖像創(chuàng)作方面,豆包大模型對“文生圖”模型做了升級迭代。新模型對長文本有了更精準的圖文匹配能力,并且對于多主體、多位置,以及手部結(jié)構(gòu)等難題,新模型都有大幅提升。

同時,新“文生圖”模型對于中國本土的人物、物品、藝術(shù)風格都有更深一層的理解,可以圖文一致的創(chuàng)造出更多中國風格的高美感圖片,進而廣泛應(yīng)用到設(shè)計、廣告、營銷、電商等多個領(lǐng)域,幫企業(yè)解決實際問題。

語音模型方面,火山引擎對語義識別準確性進行了相關(guān)升級,尤其是利用大模型豐富的知識儲備和強大的推理能力,結(jié)合上下文感知,提升語音識別的準確性。

對此,譚待以滑雪運動為例進行解釋。滑雪運動里有非常多專業(yè)術(shù)語,如立刃、搓雪等,如果沒有上下文理解,模型很難識別。豆包語音識別模型通過更精準的上下文感知,就可以讓模型更好理解其意義,讓整個語音識別的召回率提升15%,錯誤率比國內(nèi)公開的其他語音識別大模型相對降低了10%至40%。

同時,火山引擎還將豆包大模型和實時音頻技術(shù)(RTC)結(jié)合在一起,從而能夠提供端到端的大模型實時對話能力,企業(yè)可以將其接入自己的AI應(yīng)用中,讓用戶真正和模型直接、自由對話,讓用戶獲得與真人交流的體驗。

譚待介紹,通過推理,以及RTC的端到端優(yōu)化,火山引擎已經(jīng)可以把這類對話的延遲做到1秒以內(nèi),即使在網(wǎng)絡(luò)環(huán)境很差,可能80%丟包的情況下,仍保持清晰流暢的通話質(zhì)量。

譚待表示,火山引擎通過降價,將企業(yè)的試錯創(chuàng)新成本降到足夠低,使大模型真正成為了創(chuàng)新源泉。火山引擎不僅提供了更低的價格,也提供了更好的性能和吞吐。豆包通用模型pro支持初始800K的TPM,比行業(yè)平均水平高出4—5倍。

分享到

xiesc

相關(guān)推薦