-
心智觀察所:獨家對話|奇異摩爾??|:破解AI算力基礎設施瓶頸,互聯(lián)大有可為
最后更新: 2025-07-05 11:06:02【對話/ 觀察者網(wǎng) 心智觀察所】
AI大模型對于超大規(guī)模算力集群的依賴,已然成為當代通識,盡管其中的GPU這一組成要素已被近乎奉上神壇,但算力集群的表現(xiàn),依然極大程度上取決于其他軟硬件要素的綜合集成與優(yōu)化,這一基本特點,正是中國產業(yè)界面對外部遏制的破局關鍵。
從大模型算法結構創(chuàng)新,到通信協(xié)議等軟件層面打通異構混訓,再到超大規(guī)模集群網(wǎng)絡互聯(lián)架構的軟硬件創(chuàng)新,大量原始創(chuàng)新成果正在中國產業(yè)界涌現(xiàn)。
日前,心智觀察所與奇異摩爾聯(lián)合創(chuàng)始人、產品及解決方案副總裁??|進行了一次深入交流。
這家定位于以互聯(lián)為中心,為超大規(guī)模AI計算平臺提供高性能互聯(lián)解決方案的廠商,依托Chiplet和高性能RDMA技術,在這一領域走出了一條新路:
心智觀察所:很高興能有機會和您交流。說起AI大模型訓推,我們知道在硬件上除了加速卡,網(wǎng)絡互聯(lián)架構也至關重要,能否請您先談談對目前技術趨勢的觀察?
奇異摩爾??|:最近這幾年,AI大模型確實發(fā)展很快,我們可以看到整個網(wǎng)絡訓練規(guī)模其實在不斷增長。海外大模型訓練集群規(guī)模已經從萬卡級增長到10萬卡乃至20萬卡了,從國內來看,訓練規(guī)模其實也比較大了,盡管沒有那么高的單卡算力,但我們也看到了一個很好的發(fā)展趨勢,包括現(xiàn)在涌現(xiàn)出非?;鸬腄eepSeek。所以不管是國內還是國外,其實對于大模型的訓練現(xiàn)在都是在快速發(fā)展的一個階段。
在談AI大模型算力集群前,我們先來看傳統(tǒng)數(shù)據(jù)中心是怎么樣的,它的網(wǎng)絡架構相對比較簡單,通用計算網(wǎng)絡的話更多是一個多租戶體系,服務上千萬甚至更多的用戶,共用一個云端數(shù)據(jù)中心?,F(xiàn)在AI大模型的特點則是把一個非常大的集群用來服務于數(shù)量有限的大模型訓練任務,這就對于算力硬件之間的互聯(lián)提出了非常高的要求。比如傳輸帶寬上,從以往100G/200G,現(xiàn)在在向400G/800G乃至1.6T演進,整個數(shù)據(jù)交換的規(guī)模如果是一個10萬卡集群,那不管是我們講北向Scale Out(網(wǎng)間互聯(lián))的網(wǎng)絡,還是說南向Scale Up(GPU互聯(lián))的網(wǎng)絡,都要做大量的數(shù)據(jù)交互,因此AI算力集群網(wǎng)絡的性能、規(guī)模以及它的復雜性都是指數(shù)級上升。
從推理的需求來看,也在發(fā)生變化。過去單卡單用戶或者單卡多用戶的方案很流行,但最近一段時間我們看到推理系統(tǒng)的規(guī)模也在變得更大,像DeepSeek的云端推理集群已經到了幾百卡的規(guī)模甚至上千卡。多機之間組成超節(jié)點(HBD)的方案正在快速增加,它對于scale up網(wǎng)絡的要求非常高,這就是我們看到特別是在云端AI互聯(lián)架構的一些發(fā)展。
心智觀察所:我知道奇異摩爾是一家Chiplet和互聯(lián)技術見長的企業(yè),對于當前大模型訓推的技術趨勢,你們有什么樣的回應?
奇異摩爾??|:現(xiàn)在大家更多會講集群算力,從集群算力來講的話,我們可以把它分為幾個層面。最微觀的層面當然還是計算芯片本身,從芯片本身來說算力當然是越高越好,但你應該知道隨著摩爾定律放緩,芯片本身的算力密度增長趨勢也在放緩,所以各家大公司類似AMD、Intel不約而同采用Chiplet技術來把芯片做得性能更高、更復雜,在這個層面也就是片內互聯(lián),奇異摩爾會提供比方說Chiplet互聯(lián)芯粒2.5D/3D IO Die、Die2Die IP,把芯片內部更多計算單元連接起來。這是第一個層面,通過這種方式讓單芯片算力保持持續(xù)增長。
第二個層面就是剛剛說到的超節(jié)點,你可以理解成數(shù)據(jù)中心里面一個小的機柜集群,它通常由幾臺不同的服務器來組成一個小規(guī)模但是超高帶寬的集群。這里面就會涉及到Scale Up的網(wǎng)絡,英偉達這樣的廠商可以自己做,但是對于其他廠商來說,這一塊是一個相對比較大的短板,奇異摩爾可以提供一種GPU片間互聯(lián)的Die(又名NDSA-G2G),通過這種方式幫助其他廠商用我們的技術把片內互聯(lián)轉成超節(jié)點之間的互聯(lián),這是第二個層面。
再往上第三個層面,就是大模型的訓練和推理,特別是訓練層面,你還是要構建更大規(guī)模的集群對吧?這就需要我們所說的智能網(wǎng)卡。AI訓推集群比方說10萬張卡,中間有大量的跨節(jié)點數(shù)據(jù)交互,它對網(wǎng)絡數(shù)據(jù)交換性能要求非常高,所以我們另外一個產品就是基于AI原生的智能網(wǎng)卡,可以提供非常高的帶寬,作為國產網(wǎng)卡替代主流國外廠商的高性能網(wǎng)卡。我們通過這三個層面的技術能力,可以為國內算力集群用戶提供端到端互聯(lián)架構解決方案,從片內到片間到網(wǎng)間。
心智觀察所:RDMA(遠程直接內存訪問)技術也是當下算力集群網(wǎng)絡的熱門概念,能否再展開分享一些這方面的信息?
奇異摩爾??|:這里面有幾個方面,首先是性能,比如帶寬、延時以及數(shù)據(jù)傳輸效率,我們通過高性能RDMA引擎能夠達到800G傳輸速率、幾百納秒的延時,從性能來說是非常好的;第二呢是因為只有點對點的性能是不夠的,因為特別是大規(guī)模訓練的時候,其實有非常高的復雜網(wǎng)絡需求,比如容易產生擁塞,而在我們的產品里引入了新的擁塞監(jiān)測以及處理算法,能夠極大提高擁塞處理效率;第三個是所謂的多路徑傳輸,因為在復雜網(wǎng)絡環(huán)境需要從多條路徑傳輸,我們對于多徑傳輸引入了優(yōu)化算法,可以自動選擇最適合的路徑進行傳輸,對于常見的亂序問題,我們的產品引入了亂序重排的算法,可以滿足網(wǎng)絡對于亂序恢復的需求。通過這些技術就可以在有損大規(guī)模網(wǎng)絡里有效部署RDMA方案,讓十萬卡甚至以上規(guī)模集群達到95%甚至更高傳輸效率。
標簽 心智觀察所- 原標題:獨家對話|奇異摩爾??|:破解AI算力基礎設施瓶頸,互聯(lián)大有可為 本文僅代表作者個人觀點。
- 責任編輯: 李昊 
-
獨家對話|朱融融:脊髓損傷修復,讓我深感科技造福人類的力量
2025-07-05 09:33 心智觀察所 -
誰在守護中國的能源咽喉?
2025-07-04 08:21 心智觀察所 -
我國首個海水漂浮式光伏項目建成投用
2025-07-02 22:05 能源戰(zhàn)略 -
2025世界人工智能大會:教育AI技術革新與女性數(shù)智賦能路徑
2025-07-02 21:27 2025世界人工智能大會 -
WAIC 2025:AI技術與全球健康產業(yè)的破局與融合
2025-07-02 21:27 2025世界人工智能大會 -
WAIC 2025:AI賦能新型工業(yè)化的中國實踐
2025-07-02 21:27 2025世界人工智能大會 -
2025世界人工智能大會:展現(xiàn)AI賦能文娛產業(yè)的中國式現(xiàn)代化實踐
2025-07-02 21:27 2025世界人工智能大會 -
稀土牌還有這樣打法?人民幣穩(wěn)定幣的地緣政治設想
2025-07-02 14:01 心智觀察所 -
德國對DeepSeek下手
2025-06-28 19:56 德意志 -
馬斯克如何被自身思維武器困住
2025-06-27 08:10 心智觀察所 -
神二十乘組第二次出艙圓滿完成
2025-06-26 21:33 航空航天 -
答時代之問,呈中國之卷——WAIC 2025倒計時30天五大進展發(fā)布
2025-06-26 19:42 世界人工智能大會 -
我國自主研發(fā)、自主可控!新一代國產通用處理器發(fā)布
2025-06-26 17:11 中國精造 -
印度宇航員時隔41年重返太空,莫迪祝賀
2025-06-26 15:48 航空航天 -
填補多項國內空白,全國首艘氫電拖輪正式入列
2025-06-26 15:22 能源戰(zhàn)略 -
高考生“想成為最頂尖人才”該怎么努力?王興興發(fā)文指點
2025-06-24 16:24 -
中國掃地機器人企業(yè)遇到的,不止是輿情危機
2025-06-24 13:51 心智觀察所 -
打破壟斷!我國這項核心技術實現(xiàn)重大突破
2025-06-21 20:47 科技前沿 -
MAGA手機,中國制造
2025-06-21 09:19 心智觀察所 -
突破性進展!我國團隊成功研發(fā)出這一關鍵器件
2025-06-18 18:14 科技前沿
相關推薦 -
“有個‘壞習慣’,我進工廠戒不掉,孩子也染上” 評論 28美國又下黑手:撤銷三星、SK海力士在華工廠豁免 評論 195外媒又炒作中國赴烏維和部隊,白宮回應 評論 177白忙活了?“特朗普大發(fā)雷霆,怒噴烏歐不切實際” 評論 141“收獲季到了,美國大豆卻又遭‘當頭一棒’” 評論 73最新聞 Hot
-
“有個‘壞習慣’,我進工廠戒不掉,孩子也染上”
-
“股王爭奪戰(zhàn)”后,貴州茅臺發(fā)布兩公告
-
沙利文都麻了:4年白干,當初拉來遏華的盟友現(xiàn)在罵美國是“馬桶”
-
馬克龍拱火:要是這樣,特朗普就又被普京“玩”了
-
美國上訴法院裁定關稅非法,特朗普:你們在摧毀美國
-
英國“準備好介入臺海”?英防相否認
-
外媒又炒作中國赴烏維和部隊,白宮回應
-
美國又下黑手:撤銷三星、SK海力士在華工廠豁免
-
美歐持續(xù)重壓,最后一刻西班牙“毀約”
-
對華問題,普京最新表態(tài)
-
投訴“魯迅夾煙墻畫”當事人,道歉了
-
民生銀行半年報:凈利潤下降4.87%、資產總額下降0.59%
-
光大銀行半年報:營收下降5.57%,但凈利潤增長0.55%
-
俄方:普京與金正恩會晤正在醞釀中
-
“意在制衡中國”,中方警告美日
-
鳩山將出席九三閱兵,日本政府回應
-