火山引擎和NVIDIA在過去幾年里已開展了深入合作,并在自然語言處理、深度推薦系統(tǒng)、計算視覺等領(lǐng)域卓有成效?;鹕揭鎴F隊和NVIDIA團隊一致表示:非常期待雙方的合作能繼續(xù)往縱深發(fā)展,共同推進新一代加速計算浪潮。
在過去幾年中,AI模型規(guī)模不斷增大,對于算力的需求也以指數(shù)級別快速提升?;鹕揭娴膹椥杂嬎惝a(chǎn)品通過不斷迭代來滿足云上各行各業(yè)的客戶的需求,從基于NVIDIA A30 Tensor Core GPU的推理加速實例 ini2,到基于NVIDIA A100 Tensor Core GPU 面向多機多卡訓(xùn)練場景的超級計算 hpcpni2 實例,當(dāng)前火山引擎提供的產(chǎn)品覆蓋人工智能的各種負載,很好的服務(wù)了字節(jié)搜索、推薦等內(nèi)部客戶,以及各種外部客戶。
火山引擎采用的新一代基于NVIDIA H100 Tensor Core GPU彈性計算HPC實例將在 GPU的內(nèi)存帶寬、GPU與CPU的通信速度以及全精度范圍內(nèi)AI計算性能等方面,都會有全面的大幅提升,并且面向AI語言模型、生物制藥、基因工程、自動駕駛等諸多領(lǐng)域提供更具有性價比的實例產(chǎn)品。
此外,火山引擎在彈性計算實例之上,構(gòu)建了一站式企業(yè)級云原生機器學(xué)習(xí)平臺,為機器學(xué)習(xí)應(yīng)用開發(fā)者提供高效、穩(wěn)定的數(shù)據(jù)處理及加速、模型訓(xùn)練、模型推理等服務(wù),極致提升GPU資源利用率和開發(fā)者體驗。
火山引擎機器學(xué)習(xí)平臺面向?qū)I(yè)開發(fā)者,將經(jīng)過字節(jié)跳動億級DAU產(chǎn)品打磨的大規(guī)模訓(xùn)練系統(tǒng)和推理系統(tǒng)對外開放。平臺基于超大算力池、資源池化、針對訓(xùn)練優(yōu)化的資源調(diào)度引擎,能夠大幅提升資源利用率,實現(xiàn)GPU碎片率0%。業(yè)務(wù)上云或遷移過程中,無需修改鏡像、代碼和數(shù)據(jù)。全自研BytePS分布式訓(xùn)練框架,性能超主流訓(xùn)練框架Horovod/DDP 高達84%,全自研veGiantModel大模型訓(xùn)練框架,相比主流模型并行訓(xùn)練框架Megatron、DeepSpeed 提升30%以上。
火山引擎的新一代彈性計算HPC實例和機器學(xué)習(xí)平臺,將為企業(yè)客戶提供更好的AI算力性能,不斷提升客戶體驗。未來,火山引擎將繼續(xù)與合作伙伴共同開發(fā)新產(chǎn)品,為所有云用戶提供更多包容性的 AI 計算能力。