華為首次展出“算力核彈”真機,AI算力迎來新變革
在當今數字化浪潮中,人工智能(AI)技術飛速發展,算力作為其核心支撐,成為了科技領域競爭的焦點。7月26日,在世界人工智能大會(WAIC 2025)的現場,華為首次展出了昇騰384超節點真機,這款被業界稱為“算力核彈”的設備一經亮相,便引發了全球科技界的高度關注。
昇騰384超節點的出現,源于大模型時代對算力的極致追求。傳統的計算架構在面對千億級參數模型的訓練與推理任務時,逐漸暴露出諸多局限性,難以滿足日益增長的需求。華為憑借其深厚的技術積累和創新精神,大膽探索,提出了全新的解決方案。它首創將384顆昇騰NPU和192顆鯤鵬CPU通過全新高速網絡MatrixLink進行全對等互聯,從而構建成一臺超級“AI服務器”。這種創新的架構設計,徹底打破了傳統以CPU為中心的馮諾依曼架構,也就是“主從架構”的束縛。在傳統架構中,數據的傳輸和處理需要經過多個中轉環節,這不僅降低了效率,還增加了延遲。而華為的“全對等架構”則通過高速互聯總線的關鍵突破,將總線從服務器內部擴展到整機柜,甚至跨機柜,實現了CPU、NPU、DPU、存儲和內存等資源的全部互聯和池化。這就好比構建了一條信息高速公路,讓各個組件之間能夠直接、快速地進行數據交互,極大地提升了算力的密度和互聯帶寬。
從硬件規模來看,昇騰384超節點由12個計算柜和4個總線柜組成,其算力總規模高達300Pflops,相比英偉達的NVL72提升了1.7倍,展現出了強大的計算能力。網絡互聯總帶寬達269TB/s,比英偉達NVL72提升107%,這意味著數據在各個組件之間的傳輸速度更快,能夠更高效地支持大規模的數據處理和模型訓練。內存總帶寬達1229TB/s,比英偉達NVL72提升113%,有效避免了在處理大模型時可能出現的內存瓶頸問題,使得系統能夠更加流暢地運行復雜的任務。單卡推理吞吐量更是躍升到2300Tokens/s,能夠快速地對各種數據進行分析和處理,為AI應用的高效運行提供了有力保障。
昇騰384超節點在實際應用中的表現也十分出色。在性能測試中,在昇騰超節點集群上,LLaMA3等千億稠密模型性能相比傳統集群提升2.5倍以上。對于通信需求更高的Qwen、DeepSeek等多模態、MoE模型,性能提升可達3倍以上,較業界其他集群高出1.2倍,在行業中處于領先地位。此外,昇騰超節點還通過最佳負載均衡組網等方案,能夠進一步擴展為包含數萬卡的Atlas 900 SuperCluster超節點集群。這一擴展能力為未來更大規模的模型演進提供了堅實的基礎,使得它能夠適應不斷發展的AI技術需求,為科研人員和企業提供更強大的算力支持。
除了強大的性能和擴展性,昇騰384超節點還在散熱等方面采用了先進的技術。384顆芯片在運行過程中會產生大量的熱量,如果不能及時有效地散熱,將會影響設備的性能和穩定性。華為采用了液冷散熱技術,通過特殊設計的導熱墊緊貼芯片表面,利用特殊材料的高導熱性能,將芯片產生的熱量快速導出,確保設備在高效運行的同時保持穩定的溫度。這項散熱技術經過了長達十年的研究,由全球86個實驗室共同攻關,才成功解決了“芯片抱團取暖”的難題,為昇騰384超節點的穩定運行提供了可靠的保障。
在軟件生態方面,華為也在積極布局。它致力于打造開源開放的軟硬件生態,將幾萬種AI算子精簡到幾百個核心算子,讓開發者能夠更加便捷地使用昇騰384超節點進行開發。這不僅降低了開發門檻,還能夠吸引更多的開發者參與到AI應用的開發中來,推動AI技術的創新和發展。目前,國內頭部企業已經開始使用昇騰384超節點進行核心大模型的訓練,華為還派出專家團隊駐場,為客戶提供全方位的技術支持和服務,確保客戶能夠充分發揮設備的性能優勢。