(資料圖片僅供參考)
(CWW)5月9日,在2023年云網(wǎng)智聯(lián)大會主論壇,中國移動研究院攜手中國信通院、騰訊、鵬程實驗室、清華大學(xué)、華為、中興、銳捷、新華三、中信科、思博倫、Intel、Marvell、盛科等十余家合作伙伴,聯(lián)合發(fā)布《全調(diào)度以太網(wǎng)技術(shù)架構(gòu)(GSE)白皮書》,中國移動研究院副院長段曉東、信通院總工敖立及其余合作伙伴代表共同出席發(fā)布儀式。
全調(diào)度以太網(wǎng)技術(shù)架構(gòu)白皮書發(fā)布儀式
《全調(diào)度以太網(wǎng)技術(shù)架構(gòu)白皮書》旨在推動面向未來智算中心的新型全調(diào)度以太網(wǎng)技術(shù)方案,希望能夠助力產(chǎn)業(yè)突破智算中心網(wǎng)絡(luò)性能瓶頸,打造無阻塞、高帶寬、超低時延的新型智算中心網(wǎng)絡(luò),助力AIGC等高性能業(yè)務(wù)快速發(fā)展。
智算業(yè)務(wù)普遍采用分布式并行計算進行訓(xùn)練,而并行模式均需要多個計算設(shè)備間進行多次集合通信操作,AI訓(xùn)練中通常采用同步模式,多機多卡間完成集合通信操作后才可進行訓(xùn)練的下一輪迭代或計算。在這個過程中,不管是拉取數(shù)據(jù)樣本還是計算節(jié)點間進行模型參數(shù)同步,都需要高性能、低時延的網(wǎng)絡(luò)。智算中心網(wǎng)絡(luò)作為底層通信連接底座,成為智算中心提升算力性能的關(guān)鍵因素。
隨著智算業(yè)務(wù)的發(fā)展,智算中心的數(shù)據(jù)流更加復(fù)雜多變,現(xiàn)有基于流的負(fù)載分擔(dān)技術(shù)很容易會造成哈希路徑上負(fù)載不均,導(dǎo)致網(wǎng)絡(luò)有效帶寬低、時延抖動大,一旦網(wǎng)絡(luò)性能不佳,就會影響AI訓(xùn)練的質(zhì)量和速度。面向未來智算中心規(guī)模建設(shè)和AI大模型發(fā)展及部署需求,如何打造無阻塞、高帶寬、超低時延的高性能網(wǎng)絡(luò)成為提升算力水平的關(guān)鍵,也成為當(dāng)前國內(nèi)外數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域創(chuàng)新焦點。
中國移動研究院主導(dǎo)提出的全調(diào)度以太網(wǎng)技術(shù)架構(gòu),在最大限度兼容現(xiàn)有以太網(wǎng)標(biāo)準(zhǔn)的前提下,將高性能計算需求融入以太網(wǎng)。創(chuàng)新性提出報文容器(PKTC)概念,以及從“流”分發(fā)到“報文容器”分發(fā)轉(zhuǎn)變、從“推”流到“拉”流轉(zhuǎn)變、從“局部決策”到“全局調(diào)度”轉(zhuǎn)變?nèi)蠛诵睦砟?,?gòu)建出全網(wǎng)流量有序調(diào)度、鏈路帶寬高效利用、網(wǎng)絡(luò)狀態(tài)精確感知的高性能網(wǎng)絡(luò)。徹底解決了傳統(tǒng)網(wǎng)絡(luò)技術(shù)負(fù)載不均,公平調(diào)度難、擁塞控制能力不足等技術(shù)難題,為智算中心高性能網(wǎng)絡(luò)發(fā)展奠定了基礎(chǔ)。
為推動GSE架構(gòu)完善和產(chǎn)業(yè)支持,中國移動聯(lián)合信通院、騰訊、清華大學(xué)、鵬程實驗室、華為、中興、銳捷、新華三、中信科、Intel、Marvell、盛科、思博倫等國內(nèi)外公有云、設(shè)備商、芯片商、測試儀表商等共同研究了該技術(shù)方案的技術(shù)特性,初步達成了產(chǎn)業(yè)共識。
后續(xù)中國移動將繼續(xù)完善技術(shù)方案,加快國際國內(nèi)標(biāo)準(zhǔn)化進程,加速推動產(chǎn)業(yè)生態(tài)成熟,形成完整的生態(tài)鏈,推動商用進程。
《全調(diào)度以太網(wǎng)技術(shù)架構(gòu)(GSE)白皮書》下載
關(guān)鍵詞: