圖片來自谷歌

DataGemma是首個將大型語言模型(LLM)與現(xiàn)實(shí)世界數(shù)據(jù)相結(jié)合的案例,通過這種方式,谷歌希望能夠減少AI在生成回答時的幻覺現(xiàn)象。目前,谷歌已經(jīng)在Hugging Face上公布了DataGemma模型的代碼和其他相關(guān)信息。

Data Commons是谷歌建立的開源知識圖譜,其數(shù)據(jù)來源包括聯(lián)合國、世界衛(wèi)生組織、美國疾病控制與預(yù)防中心(CDC)和美國人口普查局等值得信賴的組織。它涵蓋了健康、經(jīng)濟(jì)、人口和環(huán)境等多個主題,包含超過2400億個豐富的數(shù)據(jù)點(diǎn),統(tǒng)計(jì)變量橫跨數(shù)萬種。Data Commons的用戶可以通過Google開發(fā)的AI自然語言界面進(jìn)行查詢,研究人員可以查詢例如非洲電力普及率增長最快的國家,或是收入與美國各郡糖尿病關(guān)系等問題。

谷歌通過兩種方法提升DataGemma的理解能力,使其更接近事實(shí)。第一種是RIG方法,當(dāng)用戶使用DataGemma生成回答時,它會從Data Commons中尋找統(tǒng)計(jì)數(shù)據(jù)并提供答案。第二種是RAG方法,當(dāng)用戶查詢DataGemma時,它會利用Gemini 1.5的長脈絡(luò)空間,先從Data Commons獲取上下文信息,然后生成回答,以此減少幻覺并提升回答質(zhì)量。

谷歌之前已經(jīng)利用開源的Gemma和Gemma 2作為基礎(chǔ),通過RIG和RAG技術(shù)微調(diào)出了變種版本。這次則是以Gemma 2為基礎(chǔ),再結(jié)合RIG和RAG方法,生成了兩個27B版本的DataGemma變種,并已在Hugging Face平臺公開。Google計(jì)劃繼續(xù)改進(jìn)這些方法,并將它們整合到開源的輕量模型Gemma以及Gemini家族模型中。初步將局部開放給少數(shù)人試用,然后逐步擴(kuò)大開放范圍。

——————

由DOIT傳媒主辦的2024中國數(shù)據(jù)與存儲峰會定于2024年11月8日在北京召開。本屆大會關(guān)注數(shù)據(jù)存儲與人工智能等前沿技術(shù)的最新突破和實(shí)際應(yīng)用,與來自全球的行業(yè)領(lǐng)袖、技術(shù)專家和企業(yè)代表將齊聚一堂,共同探討如何通過數(shù)據(jù)驅(qū)動的創(chuàng)新推動企業(yè)數(shù)字化轉(zhuǎn)型。

分享到

崔歡歡

相關(guān)推薦