時序預(yù)測模型PatchTST在不同數(shù)據(jù)稀缺條件下的效果
(2)通用性:小型深度模型訓(xùn)練后僅適合單一任務(wù)和場景,具有固定輸入輸出長度,適配的變量數(shù)等難以泛化的性質(zhì),難以像大語言模型一樣,適用于各類下游任務(wù),例如T5,LLaMA和BLOOM等。
(3)可擴(kuò)展性:大模型關(guān)鍵特征之一在于Scaling Law:擴(kuò)大參數(shù)量或預(yù)訓(xùn)練規(guī)??梢匀〉眯Ч嵘H欢?,時序領(lǐng)域的大模型骨架尚無定論,即使是Transformer,在以往時序大模型研究中尚未展現(xiàn)出明顯的可擴(kuò)展性。
最近,清華大學(xué)軟件學(xué)院機(jī)器學(xué)習(xí)實驗室和大數(shù)據(jù)系統(tǒng)軟件國家工程研究中心提出了名為Timer(Time Series Transformer)的面向時間序列的大模型(Large Time Series Model, LTSM)。
模型采用僅編碼器(Decoder-only)結(jié)構(gòu),基于多領(lǐng)域時間序列進(jìn)行大規(guī)模預(yù)訓(xùn)練,通過微調(diào)突破了少樣本場景下的性能瓶頸,適配不同輸入輸出長度的時間序列,以及預(yù)測,填補,異常檢測等任務(wù),展現(xiàn)出模型可擴(kuò)展性。
目前,該工作已被ICML 2024接收。
數(shù)據(jù)構(gòu)建:基于時序特性構(gòu)建層次化數(shù)據(jù)集
盡管時間序列在現(xiàn)實世界中無處不在,大規(guī)模時間序列數(shù)據(jù)集的發(fā)展卻滯后于語言,圖像,視頻等領(lǐng)域。
并且,基于低質(zhì)量,弱語義,以及難預(yù)測數(shù)據(jù)訓(xùn)練的模型無法展現(xiàn)對時間序列的通用理解能力。
為此,作者團(tuán)隊基于可預(yù)測性、平穩(wěn)性等指標(biāo)重重篩選,文章構(gòu)建了包含10億數(shù)據(jù)點的統(tǒng)一時間序列數(shù)據(jù)集(Unified Time Series Dataset, UTSD)。
UTSD覆蓋七個領(lǐng)域的高質(zhì)量時間序列,蘊含時間序列模態(tài)的通用“常識”,以此訓(xùn)練模型獲得跨領(lǐng)域時序建模的基本能力,例如捕捉主要周期,生成重要模式,以及關(guān)注自相關(guān)部分等。
文章尤其重視數(shù)據(jù)質(zhì)量的重要性,對數(shù)據(jù)集進(jìn)行難度分級和配比,隨著數(shù)據(jù)規(guī)模的擴(kuò)大,變化規(guī)律復(fù)雜的數(shù)據(jù)比例也在不斷增加,以便逐步進(jìn)行模型的容量擴(kuò)展和課程學(xué)習(xí)。
作者團(tuán)隊目前還在持續(xù)擴(kuò)大數(shù)據(jù)集,并將UTSD公開至HuggingFace,以促進(jìn)時序領(lǐng)域的預(yù)訓(xùn)練以及大模型研究。
訓(xùn)練方法:統(tǒng)一格式 + 自回歸生成
不同于語言、圖像有著相對固定的格式,時序領(lǐng)域的數(shù)據(jù)存在異構(gòu)性,例如變量數(shù)目,采樣頻率和時間跨度等,因此,進(jìn)行大規(guī)模時序預(yù)訓(xùn)練的首要難題在于如何統(tǒng)一異構(gòu)的時間序列。
為將異構(gòu)時間序列轉(zhuǎn)換為統(tǒng)一格式,作者團(tuán)隊提出了一種單序列(Single Series Sequence, S3)格式。
如下圖所示,通過變量拆分,歸一化合并,分窗和采樣等流程,文章將時序數(shù)據(jù)轉(zhuǎn)換成了與語言類似的固定長度的一維序列,在數(shù)值范圍內(nèi)保證分布穩(wěn)定的同時,讓模型更加關(guān)注序列本身的變化模式。
在預(yù)訓(xùn)練方法上,文章將單序列切分為序列片段,每個片段作為一個“詞”,采用與LLM類似的下一詞預(yù)測(Next Token Prediction, NTP)進(jìn)行預(yù)訓(xùn)練。推理時,模型可通過自回歸生成任意長度的序列。
模型結(jié)構(gòu):劍走偏鋒的僅解碼器結(jié)構(gòu)
不同于當(dāng)下時序領(lǐng)域流行的僅編碼器結(jié)構(gòu),Timer采用GPT風(fēng)格的僅解碼器Transformer。
作者團(tuán)隊發(fā)現(xiàn),Encoder-only結(jié)構(gòu)接受了預(yù)測區(qū)間的所有監(jiān)督信號,在端到端的訓(xùn)練場景中能取得較好效果,但在一定程度上限制Transformer作為時序大模型的潛力。
一方面,在Encoder-only Transformer中,輸入序列中的“詞”互相可見,可能降低了模型建模序列變化的難度;模型引入的平整化(Flattening)會影響詞之間的獨立性,導(dǎo)致難以學(xué)到序列片段的語義。
另一方面,LLM廣泛采用以詞為單位的自回歸式監(jiān)督信號,每個“詞”都是預(yù)測的目標(biāo),產(chǎn)生了細(xì)粒度且互相獨立的監(jiān)督信號。
文章認(rèn)為基于大規(guī)模時序數(shù)據(jù),學(xué)習(xí)序列片段的獨立語義,能夠賦予模型在數(shù)據(jù)集之間泛化的能力。并且獲得的模型和LLM一樣,模型只限制了最大輸入長度,從而能夠適用于下游任務(wù)中各種長度的序列。
任務(wù)統(tǒng)一:生成式模型應(yīng)對多種任務(wù)
Timer與GPT類似進(jìn)行生成式自回歸,為進(jìn)一步擴(kuò)展模型的通用性,文章將典型時序分析場景統(tǒng)一為生成式任務(wù)。
(1)時序預(yù)測(Forecasting):Timer一次推理輸出一個序列片段,通過多步自回歸給出任意長的預(yù)測結(jié)果。作者團(tuán)隊發(fā)現(xiàn),在預(yù)測上下文長度不超過預(yù)訓(xùn)練序列長度的情況下,模型不會出現(xiàn)明顯的多步誤差累積現(xiàn)象。
(2)時序填補(Imputation):類似語言模型T5,作者引入Mask Token表示一段連續(xù)的缺失序列。通過微調(diào),模型根據(jù)Mask之前的序列來填補連續(xù)的缺失值。
(3)異常檢測(Detection):文章提出了一種預(yù)測式異常檢測方法,模型首先在正常序列上進(jìn)行微調(diào),隨后根據(jù)輸入給出偏移一段時期的序列作為正常值,將其與實際采集的值對比,基于對比誤差給出異常區(qū)間的置信度。
多種時序分析任務(wù)與基于Timer的生成式分析方案
實驗效果
文章從多個角度評估了Timer作為時序大模型的能力,包括少樣本微調(diào),零樣本預(yù)測,任務(wù)通用性,可擴(kuò)展性等,并分析了模型骨架選擇,以及對于可變序列長度的適配性。
少樣本預(yù)測
文章測試了Timer在不同數(shù)據(jù)稀缺性下的預(yù)測誤差(MSE),并與此前的領(lǐng)域最優(yōu)效果(SOTA)進(jìn)行了比較。
可以發(fā)現(xiàn):Timer使用極少的訓(xùn)練樣本,例如1%的ETTh1或者3%的PEMS03,就能超過領(lǐng)域前沿的PatchTST,iTransformer等模型在100%數(shù)據(jù)上的訓(xùn)練效果。
實線:預(yù)訓(xùn)練Timer;虛線:端到端訓(xùn)練的Timer;深色基準(zhǔn):SOTA模型在全量數(shù)據(jù)上的訓(xùn)練效果
另外,預(yù)訓(xùn)練Timer的預(yù)測誤差(實線)一致小于未經(jīng)過預(yù)訓(xùn)練的模型(虛線),證明了大規(guī)模預(yù)訓(xùn)練的有效性。
任務(wù)通用性
文章評估了Timer在填補任務(wù)和異常檢測上的效果,驗證了預(yù)訓(xùn)練能夠給模型在各個數(shù)據(jù)集上帶來穩(wěn)定的收益。
左:填補任務(wù)中相對端到端模型的效果提升;右:在UCR Anomaly Archive中成功檢測出的異常數(shù)
文章還將Timer與此前的領(lǐng)域?qū)S媚P瓦M(jìn)行了對比:Timer在全部的44個填補場景中取得了領(lǐng)先,并成功檢測出了172個序列異常,相較之下,Anomaly Transformer為129個,TimesNet為109個。
可擴(kuò)展性
作者團(tuán)隊研究了Timer的可擴(kuò)展性,發(fā)現(xiàn)隨著參數(shù)量和數(shù)據(jù)規(guī)模的增加,模型在PEMS數(shù)據(jù)集上的多變量預(yù)測誤差降低了36.6%(0.194 -> 0.123),低于此前最優(yōu)的多變量預(yù)測模型iTransformer(0.139)。
從左到右:擴(kuò)展Timer層數(shù),特征維度和預(yù)訓(xùn)練數(shù)據(jù)規(guī)模都能提升預(yù)測效果
零樣本預(yù)測
作者團(tuán)隊對同期涌現(xiàn)的時序大模型進(jìn)行了全面測評,在零樣本預(yù)測任務(wù)中,大模型不更新任何參數(shù),直接輸入數(shù)據(jù)集中時間序列進(jìn)行預(yù)測。在7個真實數(shù)據(jù)集中,Timer取得了綜合最優(yōu)的水平。
模型分析
為確認(rèn)時序領(lǐng)域的大模型骨架,作者團(tuán)隊對不同模型進(jìn)行了同樣規(guī)模的預(yù)訓(xùn)練,包括基于MLP的TiDE、TCN、LSTM以及Transformer的兩種結(jié)構(gòu),結(jié)果顯示Transformer在大規(guī)模時序數(shù)據(jù)預(yù)訓(xùn)練中具備足夠的模型容量。
訓(xùn)練/驗證時的損失函數(shù),橫軸以模型訓(xùn)練過的數(shù)據(jù)點數(shù)代表訓(xùn)練進(jìn)程
文章探討了Timer對可變序列長度處理能力:如左圖所示,隨著輸入序列的變長,Timer的預(yù)測誤差逐步降低。如左圖所示,為支持任意長度的序列輸出,文章對兩種結(jié)構(gòu)的Transformer進(jìn)行了滾動預(yù)測。相較于Encoder-only Transformer,Timer顯著緩解了多步誤差累積。
作者進(jìn)一步分析了兩種Transformer結(jié)構(gòu)在下游任務(wù)上的泛化性,發(fā)現(xiàn)時下流行的僅編碼器結(jié)果在小規(guī)模訓(xùn)練場景中可以取得較好的效果。然而,在預(yù)訓(xùn)練-微調(diào)范式下,Timer表現(xiàn)出更強(qiáng)的泛化性,即使在多步滾動預(yù)測的場景中也能取得領(lǐng)域最優(yōu)效果,打破了此前針對不同輸入-輸出長度分別訓(xùn)練的現(xiàn)狀。
分析示例
文章提供了Timer在各個任務(wù)上的分析示例和具體指標(biāo),詳情可參考論文附錄。
未來方向
文章最后,作者對現(xiàn)有時序大模型進(jìn)行了能力測評和對比,總結(jié)了時序領(lǐng)域大模型的潛在發(fā)展方向,主要包含更強(qiáng)的泛化能力(例如零樣本預(yù)測),支持更長的上下文長度,支持多變量建模,以及提供置信度的概率預(yù)測等。
總結(jié)
該工作關(guān)注大模型的預(yù)訓(xùn)練-微調(diào)范式,驗證了構(gòu)建時序領(lǐng)域大模型的可行性,對多領(lǐng)域時間序列的生成式預(yù)訓(xùn)練進(jìn)行了深入探究,證明了生成式模型在處理多種時序分析任務(wù)的有效性,相關(guān)數(shù)據(jù)集與代碼已經(jīng)開源,歡迎感興趣的朋友閱讀論文或訪問GitHub頁面。