面向大模型時代的網(wǎng)絡(luò)基礎(chǔ)設(shè)施研究:挑戰(zhàn)、階段成果與展望
摘要: 擁有千億級別參數(shù)的大語言模型(large language model,LLM)已為今天的人工智能和云服務(wù)帶來了巨大的技術(shù)和商業(yè)變革.然而,大模型訓(xùn)練與傳統(tǒng)的通用云計算(例如,亞馬遜EC2彈性計算服務(wù))之間存在較多根本性的網(wǎng)絡(luò)行為差異,從而帶來了很多新的挑戰(zhàn),主要包括流量模式差異造成負載難均衡(挑戰(zhàn)1)、多訓(xùn)練任務(wù)通信競爭影響GPU利用率(挑戰(zhàn)2),以及對網(wǎng)絡(luò)故障的高敏感性(挑... (共14頁)
開通會員,享受整站包年服務(wù)