助推國產算力高質量發展,北電數智為建設數字中國添磚加瓦
目前,我國的智算中心建設正呈現出蓬勃發展的態勢。智算中心的建設不再局限于北京、上海、深圳等一線城市,已經擴展至縣級地區,全國范圍內的算力基礎設施建設正在積極推進。
根據相關資料顯示,盡管國內算力的覆蓋范圍廣泛,但其利用率卻相對較低,整體算力中心的利用率僅為50%。這一現象背后的原因不乏算力中心性能不足、無法滿足大模型時代對算力的高需求、數據中心與當地產業需求不匹配等。顯然,以算力規模和集群規模作為評價標準的時代已經過去,算力需求已經進入了從數量到質量轉變的新時代。這種轉變也意味著,計算領域關注點將集中在算力的效率、靈活性以及智能化水平。
北京電子數智科技有限責任公司(以下簡稱“北電數智”)作為?家專注于原創性、顛覆性、引領性科技創新的人工智能科技企業,在算力、算法和數據等方面實現了全棧產品和解決方案布局。
加速單芯片算力
目前我國已量產上市的GPU產品主要針對上一代算法進行設計,對于大模型相關算子的需求滿足度尚需進一步完善。因此,必須通過擴展算子庫、優化編譯器等軟件層面的手段,實現對單芯片算力利用率的提升。
北電數智的前進·AI異構計算平臺具備多重優化特性,可通過模型量化加速、模型超參數調優、稀疏化推理等模型優化能力,算子融合加速、計算圖優化、硬件訪存優化等編譯優化手段,提升單芯片的計算性能,增強國產算力芯片的自適應性。
加強混元異構集群性能
當前的智能計算中心大多依賴單一芯片制造商提供主要的計算能力,而多芯片混合異構架構將成為未來國產智能計算中心的發展趨勢。
北電數智的前進·AI異構計算平臺可以通過算子級模型拆分方法優化模型性能;通過基于自動機器學習算法的硬件擬定并執行自動調優策略,自動調整模型的配置和參數,找到在特定芯片下的最佳性能和效果;其框架可以支持大模型分布到多GPU上進行計算,提高模型的訓練和推理效率,最終實現讓合適的芯片做合適的事。
加大通信能力
在萬卡集群時代,通信的重要性與單芯片算力不相上下。通信能力直接決定了大模型訓練過程中數據傳輸的效率。高效、穩定、低延遲的網絡對于智算中心的建設和運行至關重要。
北電數智通過打通各廠家的集合通信庫來解決不同GPU芯片之間的通信問題,對通信庫進行深度適配和優化,通過標準化的分布式通信接口,確保異構集群內的信息交換,且可以通過時間重疊等策略,將計算過程和通信過程互相重疊,減少了通信延遲對整體訓練性能的影響。
智能化調度與運維保障智算集群穩定運行
智算集群的穩定性也很重要,實現算力最優解,需要一個高效可靠的智能云管平臺,通過實時智能監控來實現分鐘級的軟硬件故障定位,并實現故障的自動檢測和修復。
北電數智前進·AI異構計算平臺支持多款國產芯片的廣泛納管,幫助用戶實現對不同品牌、類型AI加速卡的統一管理,以確保各類AI芯片的無縫集成和優化利用。廣泛的納管能力也讓用戶能夠根據具體需求,靈活地調整資源配置,優化算力供給滿足各類訓練推理任務。
前進·AI異構計算平臺具有卓越的算力調度能力,可為不同場景提供多樣化的調度策略,以精準匹配各類計算任務的不同需求。“潮汐調度”是該平臺的一大特色亮點,其可根據計算任務的特性和資源需求的變化動態地分配和回收計算資源,尤其適用于渲染應用等場景,以最大化資源的利用率并減少執行時間;此外,“前進·AI異構計算平臺”提供的“推訓混布”策略可幫助大模型使用方實現同一算力集群既支持在線推理服務部署任務,又支持離線訓練任務,從而顯著提高算力資源的利用率,減少資源浪費,大幅降低運營成本。
11月21日,北電數智成功推出了國內首個算力概念驗證(PoC)平臺,并在北京數字經濟算力中心正式啟用。該平臺依托北電數智的先進計算迭代驗證平臺——前進·AI異構計算平臺,為國產算力集群提供專門的場景評測、適配和驗證服務,同時也為場景持有方特定場景應用的開發,提供了多樣化的算力適配試驗空間,從而實現從基礎算力到業務場景驅動的雙向鏈路的無縫對接。目前,北電數智前進·AI異構計算平臺已經成功對近??家芯?企業的產品 ?余種芯?進行了測試與適配,協助國產算力的性能不斷優化提升。
在國產算力發展從數量增長轉向質量提升的背景下,北電數智通過前進·AI異構計算平臺的多重優勢,為重塑國產芯片的競爭力、推動數字中國建設添磚加瓦。

提交
專為智能制造與邊緣計算而生!研華AIMB-292高性能工業主板助力行業新突破
奇點創新公司宣布成立:聚焦工業自動化和數字化,已與世界 500 強客戶成功合作
AI驅動的智能轉型:悅點科技Knora-AI打造企業智能創新加速器
TCL空調即將亮相ESIE2025儲能國際峰會,以創新科技賦能全球儲能產業升級
中孚實業攜手海康威視,以場景數字化推動轉型升級