最近更新中文字幕,噜噜噜综合

圖片來(lái)自谷歌

DataGemma是首個(gè)將大型語(yǔ)言模型（LLM）與現(xiàn)實(shí)世界數(shù)據(jù)相結(jié)合的案例，通過(guò)這種方式，谷歌希望能夠減少AI在生成回答時(shí)的幻覺(jué)現(xiàn)象。目前，谷歌已經(jīng)在Hugging Face上公布了DataGemma模型的代碼和其他相關(guān)信息。

Data Commons是谷歌建立的開(kāi)源知識(shí)圖譜，其數(shù)據(jù)來(lái)源包括聯(lián)合國(guó)、世界衛(wèi)生組織、美國(guó)疾病控制與預(yù)防中心（CDC）和美國(guó)人口普查局等值得信賴(lài)的組織。它涵蓋了健康、經(jīng)濟(jì)、人口和環(huán)境等多個(gè)主題，包含超過(guò)2400億個(gè)豐富的數(shù)據(jù)點(diǎn)，統(tǒng)計(jì)變量橫跨數(shù)萬(wàn)種。Data Commons的用戶可以通過(guò)Google開(kāi)發(fā)的AI自然語(yǔ)言界面進(jìn)行查詢(xún)，研究人員可以查詢(xún)例如非洲電力普及率增長(zhǎng)最快的國(guó)家，或是收入與美國(guó)各郡糖尿病關(guān)系等問(wèn)題。

谷歌通過(guò)兩種方法提升DataGemma的理解能力，使其更接近事實(shí)。第一種是RIG方法，當(dāng)用戶使用DataGemma生成回答時(shí)，它會(huì)從Data Commons中尋找統(tǒng)計(jì)數(shù)據(jù)并提供答案。第二種是RAG方法，當(dāng)用戶查詢(xún)DataGemma時(shí)，它會(huì)利用Gemini 1.5的長(zhǎng)脈絡(luò)空間，先從Data Commons獲取上下文信息，然后生成回答，以此減少幻覺(jué)并提升回答質(zhì)量。

谷歌之前已經(jīng)利用開(kāi)源的Gemma和Gemma 2作為基礎(chǔ)，通過(guò)RIG和RAG技術(shù)微調(diào)出了變種版本。這次則是以Gemma 2為基礎(chǔ)，再結(jié)合RIG和RAG方法，生成了兩個(gè)27B版本的DataGemma變種，并已在Hugging Face平臺(tái)公開(kāi)。Google計(jì)劃繼續(xù)改進(jìn)這些方法，并將它們整合到開(kāi)源的輕量模型Gemma以及Gemini家族模型中。初步將局部開(kāi)放給少數(shù)人試用，然后逐步擴(kuò)大開(kāi)放范圍。

——————

由DOIT傳媒主辦的2024中國(guó)數(shù)據(jù)與存儲(chǔ)峰會(huì)定于2024年11月8日在北京召開(kāi)。本屆大會(huì)關(guān)注數(shù)據(jù)存儲(chǔ)與人工智能等前沿技術(shù)的最新突破和實(shí)際應(yīng)用，與來(lái)自全球的行業(yè)領(lǐng)袖、技術(shù)專(zhuān)家和企業(yè)代表將齊聚一堂，共同探討如何通過(guò)數(shù)據(jù)驅(qū)動(dòng)的創(chuàng)新推動(dòng)企業(yè)數(shù)字化轉(zhuǎn)型。

分享到

崔歡歡

相關(guān)推薦

近期文章

熱門(mén)標(biāo)簽