飛象網(wǎng)訊(易歡)在今天“2024年云網(wǎng)智聯(lián)大會”上,中國電信科技委主任韋樂平分享了為未來大模型跨群跨域跨云面臨挑戰(zhàn)的思考與建議。
韋樂平指出,由于單站資源受限,未來可能需要在園區(qū)、AZ乃至更大范圍內(nèi)由多個物理集群構(gòu)成一個超級邏輯集群進行聯(lián)合訓(xùn)練才能支撐超大模型的訓(xùn)練。推理本身與具體業(yè)務(wù)場景相關(guān),更可能需要跨域跨云實施。
“挑戰(zhàn)也隨著而來,其中,距離增大導(dǎo)致時延變大,高頻次通信的效率將降低,導(dǎo)致網(wǎng)絡(luò)吞吐量降低,影響GPU利用率。此外,故障概率也將增大!
對此,韋樂平也給出了應(yīng)對策略,解決不同集群間參數(shù)的傳遞和同步以及大量數(shù)據(jù)跨群跨域跨云傳輸?shù)牟煌瑫r延導(dǎo)致的訓(xùn)練速度減慢的問題。一是訓(xùn)練任務(wù)被拆分到不同集群上實行并行訓(xùn)練,根據(jù)不同的訓(xùn)練任務(wù)和場景,采用數(shù)據(jù)并行、流水線并行、張量并行等多種不同策略。二是采用空芯光纖從物理層上直接降低數(shù)據(jù)傳遞時延(降33%)。
與此同時,韋樂平強調(diào),單站單園區(qū)集中訓(xùn)練是首選,跨群跨域跨云的訓(xùn)練依然充滿挑戰(zhàn)!