AI 發(fā)展正面臨著高質量數(shù)據(jù)短缺的問題。近年來,伴隨著大模型技術的快速發(fā)展,機器學習也正從“以模型為中心”轉向“以數(shù)據(jù)為中心”,高質量數(shù)據(jù)可以更好地模擬客觀世界,提升模型的準確性和穩(wěn)定性,但是“到 2026 年,現(xiàn)存的用于 AI 模型訓練的高質量語言數(shù)據(jù)將耗盡”,據(jù)Epoch AI Research研究團隊預測。Gartner 表示,到 2030 年,合成數(shù)據(jù)將成為 AI 模型的主要訓練數(shù)據(jù)來源;2024 年, 60% 的 AI 數(shù)據(jù)將是合成數(shù)據(jù),被用于模擬、預測場景和降低風險。

據(jù)悉,AIGD平臺是由螞蟻數(shù)科申報的首發(fā)成果,平臺可通過大規(guī)模合成互聯(lián)網(wǎng)所不覆蓋的高質量、高價值垂直語料數(shù)據(jù),幫助科技廠商進行 AI 模型訓練。據(jù)介紹,AIGD具備 PB 級數(shù)據(jù)生產能力,支持數(shù)據(jù)從生成到訓練全流程自動化處理,自動化率達到 80%,這提高了數(shù)據(jù)處理的效率和質量。此外,平臺自研15 余種數(shù)據(jù)合成工具,目前可以合成圖片、視頻、3D模型、多模態(tài)圖文視頻對、多輪對話、語音信號、心率腦電信號、結構化交易數(shù)據(jù)等多模態(tài)數(shù)據(jù),以滿足多種應用場景下的 AI 模型訓練需求。

業(yè)內人士普遍認為,“高質量數(shù)據(jù)”是 AI 大模型深入到產業(yè)的重要基礎,沒有好的數(shù)據(jù)做支撐,一切 AI 應用都是空中樓閣。近日,OpenAI員工爆料說,“新模型‘沒有那么大飛躍’”,主要原因之一便是高質量數(shù)據(jù)不足所導致的。今年 9 月份, OpenAI 發(fā)布推理模型o1,帶來了強化學習訓練新范式,通過自博弈強化學習,將合成數(shù)據(jù)的形式訓練給大模型,從而大幅增加大模型邏輯推理能力。

“數(shù)據(jù)合成”是螞蟻數(shù)科 AIGD 平臺的主要功能之一,此外還包括數(shù)據(jù)標注、質檢等能力。在數(shù)據(jù)標注方面,通過人機協(xié)同進行標注,人工智能算法能夠自動識別和預處理大部分基礎信息,預標注模型依賴人工標注量降低了 70%以上。在數(shù)據(jù)質檢方面,平臺會根據(jù)元信息支持不同粒度的數(shù)據(jù)質量統(tǒng)計,最大程度理解數(shù)據(jù),保證合成及標注后的數(shù)據(jù)符合預期質量要求。

螞蟻數(shù)科今年陸續(xù)迭代發(fā)布了多款 AI 產品,包括大模型安全評測與防御產品“蟻天鑒”、反深偽造產品 ZOLOZ Deeper 等。作為一家面向 ToB 服務的科技公司,螞蟻數(shù)科旗下主要包含“企業(yè)用云服務”“企業(yè)區(qū)塊鏈服務”“企業(yè)AI服務”三大核心業(yè)務,李哲在烏鎮(zhèn)峰會上表示,“我們即將迎來 AI 服務產業(yè)的黃金年代,螞蟻數(shù)科將會堅定在 AI ToB 領域投入,讓 AI 深入千行百業(yè)?!?/p>

分享到

xiesc

相關推薦