快速整理大量的資料也是不少用戶在工作當中所遇到的挑戰(zhàn),以簡歷篩選為例,公司HR可以基于企業(yè)業(yè)務需求,通過Kimi精讀500份簡歷,速找出有某個行業(yè)從業(yè)經(jīng)歷,同時從計算機類專業(yè)畢業(yè)的求職者,更加高效地篩選和識別合適的候選人。
從20萬字到200萬字,由于沒有采用常規(guī)的漸進式提升路線,月之暗面團隊遇到的技術(shù)難度也呈指數(shù)級增加。為了達到更好的長窗口無損壓縮性能,研發(fā)和技術(shù)團隊從模型預訓練到對齊、推理環(huán)節(jié)均進行了原生的重新設(shè)計和開發(fā),不走“滑動窗口”、“降采樣”等技術(shù)捷徑,攻克了很多底層技術(shù)難點。
在產(chǎn)品研發(fā)和推廣過程中,月之暗面與火山引擎展開深度合作,進行聯(lián)合技術(shù)創(chuàng)新,共同推進大型語言模型在垂直領(lǐng)域和通用場景的應用落地。
超大規(guī)模多模態(tài)大模型預訓練快、穩(wěn)、省
在大規(guī)模的訓練過程中,GPU資源利用損耗、千卡任務故障概率指數(shù)增長、模型梯度爆炸、訓練效果缺少及時反饋等困難常常影響模型的訓練效率,導致數(shù)據(jù)和算力的價值難以充分發(fā)揮。
火山引擎機器學習平臺沉淀形成全棧AI開發(fā)工程優(yōu)化、任務故障自愈、實驗可觀測性等解決方案和最佳實踐,為月之暗面提供了高效率、穩(wěn)定、可觀測的一站式AI算法開發(fā)和迭代服務。在Kimi的打磨和發(fā)布過程中,月之暗面基于火山引擎提供的超大規(guī)模AI訓練和推理加速解決方案實現(xiàn)了數(shù)千卡單一大集群規(guī)模常態(tài)化訓練,幫助團隊快速完成大型語言模型的持續(xù)訓練迭代、精調(diào)和推理。
大模型訓練過程中自定義任務與開發(fā)機繁多,由于任務的啟停時間不一致,不可避免會出現(xiàn)GPU碎片問題導致任務調(diào)度不上?;鹕揭鏅C器學習平臺通過Binpack背包算法匯聚降低碎片,并使用調(diào)度器定期驅(qū)逐,大大提高GPU資源利用率,保障任務快速執(zhí)行。同時,GPU彈性計算實例可靈活調(diào)度資源,隨用隨取,最高可以為月之暗面節(jié)省70%的算力成本。
大模型訓練是一個迭代的過程,需要進行海量實驗?;鹕揭鏅C器學習平臺支持交互式調(diào)試,集成了JupyterLab、TensorBoard、VSCode、實驗管理工具等,幫助觀測實驗各類指標。同時,大規(guī)模分布式訓練任務很可能會出現(xiàn)軟硬件、網(wǎng)絡等問題,火山引擎提供了一系列自動化故障自愈流程機制,如慢節(jié)點自動巡檢、故障自動檢測、故障注入演練等,幫助大幅減少故障對任務的影響。
數(shù)據(jù)飛輪加持模型訓練,實現(xiàn)全面降本增效
在與火山引擎的合作中,月之暗面團隊應用了火山引擎數(shù)智平臺VeDI旗下云原生大數(shù)據(jù)平臺E-MapReduce和增長分析DataFinder兩大產(chǎn)品,并結(jié)合數(shù)據(jù)飛輪方法論,在數(shù)據(jù)資產(chǎn)層面大大降低了模型預處理的成本,在業(yè)務應用層面則為Kimi的精準投放、高效拉新保駕護航。
火山引擎數(shù)據(jù)飛輪是企業(yè)數(shù)智化升級的新范式,其強調(diào)以數(shù)據(jù)消費為核心驅(qū)動力,使企業(yè)數(shù)據(jù)流充分融入業(yè)務流,實現(xiàn)數(shù)據(jù)資產(chǎn)和業(yè)務應用的飛輪效應。
大模型的訓練以海量數(shù)據(jù)為基礎(chǔ),其訓練過程本身可視為一種大規(guī)模的數(shù)據(jù)消費。在多模態(tài)模型數(shù)據(jù)預處理過程中,非結(jié)構(gòu)化數(shù)據(jù)量級龐大、數(shù)據(jù)種類及格式多樣、數(shù)據(jù)處理過程復雜,對集群的計算調(diào)度、存儲吞吐都提出了非常大的挑戰(zhàn)。
火山引擎通過E-MapReduce產(chǎn)品及相關(guān)解決方案,將Spark與Ray計算框架統(tǒng)一調(diào)度,共享集群資源,大大提升了數(shù)據(jù)清洗的復雜度和效率,實現(xiàn)了對海量數(shù)據(jù)的快速和規(guī)模化的處理,集群成本降低30%,并能應對突發(fā)任務需求,加速Kimi上線時間。
在業(yè)務層面,為了進一步推廣Kimi應用,月之暗面需要在保障廣告ROI健康水平的情況下快速拓展新客戶,一方面促進Kimi DAU的快速攀升,同時兼顧新用戶留存率,保障業(yè)務健康度。這一方面需要數(shù)據(jù)的支撐,同時也需要便捷高效的數(shù)據(jù)工具輔助業(yè)務決策。
結(jié)合火山引擎增長分析DataFinder的能力,月之暗面對產(chǎn)品用戶路徑優(yōu)化進行了全鏈路優(yōu)化,尋找轉(zhuǎn)化卡點、流失高點,結(jié)合各節(jié)點數(shù)據(jù)快速發(fā)現(xiàn)問題、定位問題、解決問題,確保用戶體驗,提升整體留存。于此同時,借助DataFinder的廣告投放渠道監(jiān)測功能,月之暗面團隊對廣告投放效果進行了精準分析,進一步優(yōu)化了推廣素材和相關(guān)活動,確保拉新效率。
未來,火山引擎與月之暗面將持續(xù)深化合作,共同攻克技術(shù)難題,進一步幫助用戶加速AI進程?;鹕揭嬉矊⒉粩嗵嵘陨砑夹g(shù)實力和服務水平,攜手伙伴共同為用戶提供更加優(yōu)質(zhì)、智能的AI體驗,助力 AI 應用的創(chuàng)新與發(fā)展。