Copyright 2018-2025 報紙迷 版權(quán)所有 京ICP備2018136890號
華為在大模型訓練上搞了個大動作:用自家的昇騰芯片和鯤鵬芯片,把AI訓練里的老大難的問題一通爆改,訓練速度更快,成本還省了不少。
那到底他們是怎么做到的?
首先,在AI大模型里,現(xiàn)在很流行一種叫MoE(專家混合模型)的架構(gòu)。這個模型好比是“專家問診”系統(tǒng):每次輸入一個問題,只找一部分最合適的專家來回答,省下其他專家休息,不用每次都讓所有人上陣。這樣既能做大模型,又能節(jié)省一些計算。
但問題來了:
第一,計算調(diào)度容易卡殼。 比如有些算子像FlashAttention、矩陣乘法這些特別費時,數(shù)據(jù)來回搬運、安排順序的時候很容易堵車,導致芯片沒法全速運轉(zhuǎn)。
第二,內(nèi)存壓力巨大。 模型參數(shù)太大,訓練時產(chǎn)生的中間數(shù)據(jù)又堆得飛快,昂貴的NPU內(nèi)存一下子就滿了,訓練經(jīng)常被“撐爆”。
針對這兩大難題,華為做了兩步優(yōu)化:
第一步:把計算做快點
華為團隊專門對最費時間的幾類算子做了深度優(yōu)化:
FlashAttention:優(yōu)化掉了重復計算,支持不規(guī)則輸入直接處理,提升前向速度50%。
矩陣乘法:優(yōu)化了數(shù)據(jù)搬運和調(diào)度,讓芯片的計算單元能多干活,利用率提升10%。
向量重排:把多個小算子合并,搬數(shù)據(jù)的次數(shù)減少,速度提升3倍以上!
光是這一輪,訓練吞吐量就提升了15%。
第二步:把任務安排更順點,內(nèi)存也省下來了
算子下發(fā)“零等待”:鯤鵬CPU和昇騰NPU協(xié)同配合,像交通管制一樣提前安排順序,不讓CPU和NPU相互等待,整體訓練速度又提升了4%。
內(nèi)存精準手術(shù):有些數(shù)據(jù)先不保存,等用時現(xiàn)算(重計算),再配合智能卸載(Swap),把暫時不用的數(shù)據(jù)挪到別處存著。整體內(nèi)存節(jié)省70%,徹底緩解爆倉問題。
通過這兩大系統(tǒng)優(yōu)化,華為讓超大規(guī)模MoE模型訓練又快又穩(wěn),訓練成本大大降低,硬件利用率也提升了一大截。
簡單來說:
算力利用更高了
訓練速度更快了
內(nèi)存空間更寬裕了
這背后是華為昇騰+鯤鵬的軟硬件協(xié)同全鏈路優(yōu)化,也是國產(chǎn)AI基礎能力越來越硬核的一個縮影。
未來大模型時代,拼的不只是“有多少芯片”,更拼誰能把芯片用得更高效。華為這波操作,給國產(chǎn)AI打了個很好的樣板,值得借鑒。