快速整理大量的資料也是不少用戶在工作當(dāng)中所遇到的挑戰(zhàn),以簡歷篩選為例,公司HR可以基于企業(yè)業(yè)務(wù)需求,通過Kimi精讀500份簡歷,速找出有某個行業(yè)從業(yè)經(jīng)歷,同時從計算機(jī)類專業(yè)畢業(yè)的求職者,更加高效地篩選和識別合適的候選人。
從20萬字到200萬字,由于沒有采用常規(guī)的漸進(jìn)式提升路線,月之暗面團(tuán)隊遇到的技術(shù)難度也呈指數(shù)級增加。為了達(dá)到更好的長窗口無損壓縮性能,研發(fā)和技術(shù)團(tuán)隊從模型預(yù)訓(xùn)練到對齊、推理環(huán)節(jié)均進(jìn)行了原生的重新設(shè)計和開發(fā),不走“滑動窗口”、“降采樣”等技術(shù)捷徑,攻克了很多底層技術(shù)難點。
在產(chǎn)品研發(fā)和推廣過程中,月之暗面與火山引擎展開深度合作,進(jìn)行聯(lián)合技術(shù)創(chuàng)新,共同推進(jìn)大型語言模型在垂直領(lǐng)域和通用場景的應(yīng)用落地。
超大規(guī)模多模態(tài)大模型預(yù)訓(xùn)練快、穩(wěn)、省
在大規(guī)模的訓(xùn)練過程中,GPU資源利用損耗、千卡任務(wù)故障概率指數(shù)增長、模型梯度爆炸、訓(xùn)練效果缺少及時反饋等困難常常影響模型的訓(xùn)練效率,導(dǎo)致數(shù)據(jù)和算力的價值難以充分發(fā)揮。
火山引擎機(jī)器學(xué)習(xí)平臺沉淀形成全棧AI開發(fā)工程優(yōu)化、任務(wù)故障自愈、實驗可觀測性等解決方案和最佳實踐,為月之暗面提供了高效率、穩(wěn)定、可觀測的一站式AI算法開發(fā)和迭代服務(wù)。在Kimi的打磨和發(fā)布過程中,月之暗面基于火山引擎提供的超大規(guī)模AI訓(xùn)練和推理加速解決方案實現(xiàn)了數(shù)千卡單一大集群規(guī)模常態(tài)化訓(xùn)練,幫助團(tuán)隊快速完成大型語言模型的持續(xù)訓(xùn)練迭代、精調(diào)和推理。
大模型訓(xùn)練過程中自定義任務(wù)與開發(fā)機(jī)繁多,由于任務(wù)的啟停時間不一致,不可避免會出現(xiàn)GPU碎片問題導(dǎo)致任務(wù)調(diào)度不上?;鹕揭鏅C(jī)器學(xué)習(xí)平臺通過Binpack背包算法匯聚降低碎片,并使用調(diào)度器定期驅(qū)逐,大大提高GPU資源利用率,保障任務(wù)快速執(zhí)行。同時,GPU彈性計算實例可靈活調(diào)度資源,隨用隨取,最高可以為月之暗面節(jié)省70%的算力成本。
大模型訓(xùn)練是一個迭代的過程,需要進(jìn)行海量實驗?;鹕揭鏅C(jī)器學(xué)習(xí)平臺支持交互式調(diào)試,集成了JupyterLab、TensorBoard、VSCode、實驗管理工具等,幫助觀測實驗各類指標(biāo)。同時,大規(guī)模分布式訓(xùn)練任務(wù)很可能會出現(xiàn)軟硬件、網(wǎng)絡(luò)等問題,火山引擎提供了一系列自動化故障自愈流程機(jī)制,如慢節(jié)點自動巡檢、故障自動檢測、故障注入演練等,幫助大幅減少故障對任務(wù)的影響。
數(shù)據(jù)飛輪加持模型訓(xùn)練,實現(xiàn)全面降本增效
在與火山引擎的合作中,月之暗面團(tuán)隊?wèi)?yīng)用了火山引擎數(shù)智平臺VeDI旗下云原生大數(shù)據(jù)平臺E-MapReduce和增長分析DataFinder兩大產(chǎn)品,并結(jié)合數(shù)據(jù)飛輪方法論,在數(shù)據(jù)資產(chǎn)層面大大降低了模型預(yù)處理的成本,在業(yè)務(wù)應(yīng)用層面則為Kimi的精準(zhǔn)投放、高效拉新保駕護(hù)航。
火山引擎數(shù)據(jù)飛輪是企業(yè)數(shù)智化升級的新范式,其強(qiáng)調(diào)以數(shù)據(jù)消費為核心驅(qū)動力,使企業(yè)數(shù)據(jù)流充分融入業(yè)務(wù)流,實現(xiàn)數(shù)據(jù)資產(chǎn)和業(yè)務(wù)應(yīng)用的飛輪效應(yīng)。
大模型的訓(xùn)練以海量數(shù)據(jù)為基礎(chǔ),其訓(xùn)練過程本身可視為一種大規(guī)模的數(shù)據(jù)消費。在多模態(tài)模型數(shù)據(jù)預(yù)處理過程中,非結(jié)構(gòu)化數(shù)據(jù)量級龐大、數(shù)據(jù)種類及格式多樣、數(shù)據(jù)處理過程復(fù)雜,對集群的計算調(diào)度、存儲吞吐都提出了非常大的挑戰(zhàn)。
火山引擎通過E-MapReduce產(chǎn)品及相關(guān)解決方案,將Spark與Ray計算框架統(tǒng)一調(diào)度,共享集群資源,大大提升了數(shù)據(jù)清洗的復(fù)雜度和效率,實現(xiàn)了對海量數(shù)據(jù)的快速和規(guī)模化的處理,集群成本降低30%,并能應(yīng)對突發(fā)任務(wù)需求,加速Kimi上線時間。
在業(yè)務(wù)層面,為了進(jìn)一步推廣Kimi應(yīng)用,月之暗面需要在保障廣告ROI健康水平的情況下快速拓展新客戶,一方面促進(jìn)Kimi DAU的快速攀升,同時兼顧新用戶留存率,保障業(yè)務(wù)健康度。這一方面需要數(shù)據(jù)的支撐,同時也需要便捷高效的數(shù)據(jù)工具輔助業(yè)務(wù)決策。
結(jié)合火山引擎增長分析DataFinder的能力,月之暗面對產(chǎn)品用戶路徑優(yōu)化進(jìn)行了全鏈路優(yōu)化,尋找轉(zhuǎn)化卡點、流失高點,結(jié)合各節(jié)點數(shù)據(jù)快速發(fā)現(xiàn)問題、定位問題、解決問題,確保用戶體驗,提升整體留存。于此同時,借助DataFinder的廣告投放渠道監(jiān)測功能,月之暗面團(tuán)隊對廣告投放效果進(jìn)行了精準(zhǔn)分析,進(jìn)一步優(yōu)化了推廣素材和相關(guān)活動,確保拉新效率。
未來,火山引擎與月之暗面將持續(xù)深化合作,共同攻克技術(shù)難題,進(jìn)一步幫助用戶加速AI進(jìn)程?;鹕揭嬉矊⒉粩嗵嵘陨砑夹g(shù)實力和服務(wù)水平,攜手伙伴共同為用戶提供更加優(yōu)質(zhì)、智能的AI體驗,助力 AI 應(yīng)用的創(chuàng)新與發(fā)展。