小編基于北京郵電大學(xué)魏翼飛教授在賽迪顧問主辦“2024IT市場(chǎng)年會(huì)·人工智能論壇”上的演講整理出這樣一條時(shí)間線:
最早的語言模型是19世界50年代的N-Gram模型,根據(jù)前N-1個(gè)詞預(yù)測(cè)第N個(gè)詞,通過計(jì)算下一個(gè)出現(xiàn)哪個(gè)詞的概率高,預(yù)測(cè)下一個(gè)詞最有可能是什么。
1954年,Bag-of-Words(詞袋)模型問世,標(biāo)志著早期文本表示技術(shù)的開始。Bag-of-Words不考慮單詞在文本中的順序,而是統(tǒng)計(jì)上下文里這個(gè)詞出現(xiàn)了多少次,詞的數(shù)量就是向量的維度,向量的值就表示這個(gè)詞在文本中出現(xiàn)的次數(shù)。
1997年,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)出現(xiàn),作為一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(RNN),可以記錄上下文信息,適合處理如天氣預(yù)測(cè)、股市分析等時(shí)間序列數(shù)據(jù),可以捕捉序列中的依賴關(guān)系,但是訓(xùn)練過程遇到梯度消失和梯度爆炸問題,很難學(xué)習(xí)長(zhǎng)距離依賴關(guān)系。另外,遞歸神經(jīng)網(wǎng)絡(luò)的順序計(jì)算模式不能做并行處理。
2013年,Word2Vec模型誕生。用神經(jīng)網(wǎng)絡(luò)做詞袋向量的轉(zhuǎn)化,把高維的稀疏向量轉(zhuǎn)化為低維的稠密向量,轉(zhuǎn)換后在向量空間,語義相近的詞在向量空間距離很近,極大地降低向量維度可以在向量空間快速處理,這是人工智能的基石。
2014年,Seq2Seq模型提出,把語言先用編碼器編碼成一個(gè)向量,放到向量空間,然后在空間里用解碼器進(jìn)行翻譯輸出,是將一個(gè)序列轉(zhuǎn)換為另一個(gè)序列的神經(jīng)網(wǎng)絡(luò)模型,廣泛應(yīng)用于機(jī)器翻譯等領(lǐng)域。
2017年,谷歌推出Transformer架構(gòu),相當(dāng)于把語言處理和計(jì)算機(jī)視覺整合起來。Transformer有編碼器和解碼器,并在其中加入多頭自注意力機(jī)制,使其可以看到全局歷史信息,可以處理非常長(zhǎng)的長(zhǎng)距離依賴關(guān)系,并且支持并行計(jì)算,極大地提高了計(jì)算效率。
比如,當(dāng)你提到去電子商城買了一個(gè)蘋果,Transformer可以根據(jù)前面的“電子商城”判斷“蘋果”是電腦或手機(jī),而不是水果。此外,Transformer是并行計(jì)算,信息可以同時(shí)處理,速度更快。
2018年,OpenAI發(fā)布GPT-1,基于Transformer解碼器架構(gòu),采用單向自回歸模式,即模型生成每個(gè)詞時(shí)都只是參考之前的詞,不能預(yù)測(cè)未來要寫的內(nèi)容。同年,BERT模型發(fā)布,基于Transformer的編碼器架構(gòu),使其能夠高效地理解長(zhǎng)句子,做好完形填空。
同時(shí),相比之前需要大量精確的人工標(biāo)注才能做訓(xùn)練的神經(jīng)網(wǎng)絡(luò)或機(jī)器學(xué)習(xí),大模型可以利用海量未標(biāo)注的數(shù)據(jù)做預(yù)訓(xùn)練,來理解人類的語言語義和語言結(jié)構(gòu),是無監(jiān)督學(xué)習(xí),這是大模型最大的優(yōu)勢(shì),因此2018年之后大家都在做預(yù)訓(xùn)練模型。
2019年,BART發(fā)布,結(jié)合了雙向編碼器和自回歸解碼器的預(yù)訓(xùn)練語言模型,融合了BERT和GPT的優(yōu)點(diǎn),前者適合做完形填空,后者適合預(yù)測(cè)下一個(gè)詞,這樣既能理解前后文,又能生成新的句子。
2022年底,OpenAI發(fā)布ChatGPT,作為單模態(tài)大模型,專注文本處理,展示了涌現(xiàn)能力,并且通過了圖靈測(cè)試——回答問題非常自然,像和一個(gè)真實(shí)的人在交流,而且采用了強(qiáng)化學(xué)習(xí),多輪回答效果會(huì)更好。
2023年,我們進(jìn)入多模態(tài)大模型時(shí)代,不僅具備文字和語言處理能力,還增加了圖像處理能力。10月,國(guó)內(nèi)AI初創(chuàng)公司月之暗面科技推出全球首個(gè)支持輸入20萬漢字的AI助手Kimi。12月,谷歌發(fā)布多模態(tài)大模型Gemini,能夠同時(shí)識(shí)別文本、圖像、音頻、視頻和代碼。
2024年初,OpenAI發(fā)布文字生成短視頻大模型Sora,結(jié)合自然語言處理和計(jì)算機(jī)視覺的能力,從文字描述中自動(dòng)創(chuàng)建對(duì)應(yīng)的視頻內(nèi)容,大大提升了文本生成的質(zhì)量和流暢性,5月GPT-4o發(fā)布。
真正顛覆人機(jī)交互的模式正在開啟!