小編基于北京郵電大學魏翼飛教授在賽迪顧問主辦“2024IT市場年會·人工智能論壇”上的演講整理出這樣一條時間線:

最早的語言模型是19世界50年代的N-Gram模型,根據(jù)前N-1個詞預測第N個詞,通過計算下一個出現(xiàn)哪個詞的概率高,預測下一個詞最有可能是什么。

1954年,Bag-of-Words(詞袋)模型問世,標志著早期文本表示技術(shù)的開始。Bag-of-Words不考慮單詞在文本中的順序,而是統(tǒng)計上下文里這個詞出現(xiàn)了多少次,詞的數(shù)量就是向量的維度,向量的值就表示這個詞在文本中出現(xiàn)的次數(shù)。

1997年,長短期記憶網(wǎng)絡(LSTM)出現(xiàn),作為一種時間遞歸神經(jīng)網(wǎng)絡(RNN),可以記錄上下文信息,適合處理如天氣預測、股市分析等時間序列數(shù)據(jù),可以捕捉序列中的依賴關(guān)系,但是訓練過程遇到梯度消失和梯度爆炸問題,很難學習長距離依賴關(guān)系。另外,遞歸神經(jīng)網(wǎng)絡的順序計算模式不能做并行處理。

2013年,Word2Vec模型誕生。用神經(jīng)網(wǎng)絡做詞袋向量的轉(zhuǎn)化,把高維的稀疏向量轉(zhuǎn)化為低維的稠密向量,轉(zhuǎn)換后在向量空間,語義相近的詞在向量空間距離很近,極大地降低向量維度可以在向量空間快速處理,這是人工智能的基石。

2014年,Seq2Seq模型提出,把語言先用編碼器編碼成一個向量,放到向量空間,然后在空間里用解碼器進行翻譯輸出,是將一個序列轉(zhuǎn)換為另一個序列的神經(jīng)網(wǎng)絡模型,廣泛應用于機器翻譯等領域。

2017年,谷歌推出Transformer架構(gòu),相當于把語言處理和計算機視覺整合起來。Transformer有編碼器和解碼器,并在其中加入多頭自注意力機制,使其可以看到全局歷史信息,可以處理非常長的長距離依賴關(guān)系,并且支持并行計算,極大地提高了計算效率。

比如,當你提到去電子商城買了一個蘋果,Transformer可以根據(jù)前面的“電子商城”判斷“蘋果”是電腦或手機,而不是水果。此外,Transformer是并行計算,信息可以同時處理,速度更快。

2018年,OpenAI發(fā)布GPT-1,基于Transformer解碼器架構(gòu),采用單向自回歸模式,即模型生成每個詞時都只是參考之前的詞,不能預測未來要寫的內(nèi)容。同年,BERT模型發(fā)布,基于Transformer的編碼器架構(gòu),使其能夠高效地理解長句子,做好完形填空。

同時,相比之前需要大量精確的人工標注才能做訓練的神經(jīng)網(wǎng)絡或機器學習,大模型可以利用海量未標注的數(shù)據(jù)做預訓練,來理解人類的語言語義和語言結(jié)構(gòu),是無監(jiān)督學習,這是大模型最大的優(yōu)勢,因此2018年之后大家都在做預訓練模型。

2019年,BART發(fā)布,結(jié)合了雙向編碼器和自回歸解碼器的預訓練語言模型,融合了BERT和GPT的優(yōu)點,前者適合做完形填空,后者適合預測下一個詞,這樣既能理解前后文,又能生成新的句子。

2022年底,OpenAI發(fā)布ChatGPT,作為單模態(tài)大模型,專注文本處理,展示了涌現(xiàn)能力,并且通過了圖靈測試——回答問題非常自然,像和一個真實的人在交流,而且采用了強化學習,多輪回答效果會更好。

2023年,我們進入多模態(tài)大模型時代,不僅具備文字和語言處理能力,還增加了圖像處理能力。10月,國內(nèi)AI初創(chuàng)公司月之暗面科技推出全球首個支持輸入20萬漢字的AI助手Kimi。12月,谷歌發(fā)布多模態(tài)大模型Gemini,能夠同時識別文本、圖像、音頻、視頻和代碼。

2024年初,OpenAI發(fā)布文字生成短視頻大模型Sora,結(jié)合自然語言處理和計算機視覺的能力,從文字描述中自動創(chuàng)建對應的視頻內(nèi)容,大大提升了文本生成的質(zhì)量和流暢性,5月GPT-4o發(fā)布。

真正顛覆人機交互的模式正在開啟!

分享到

崔歡歡

相關(guān)推薦