-
美團首個大模型被爆成功跑通國產(chǎn)化訓練路徑,可在國產(chǎn)加速卡上進行
9月1日,美團宣布LongCat-Flash-Chat正式發(fā)布,在Github、Hugging Face平臺開源,并同步上線官網(wǎng)。
此前有自媒體“01Founder”爆料稱,LongCat-Flash最大的亮點是其訓練并非在英偉達GPU上完成,而是在國產(chǎn)加速卡上進行。美團已經(jīng)成功跑通了一條不被“卡脖子”的技術路徑,但由于一些原因,真正的硬件廠商具體名字不方便透露。
對于該爆料,美團方面未作正面回應,只介紹稱,LongCat-Flash采用創(chuàng)新性混合專家模型(Mixture-of-Experts, MoE)架構,總參數(shù)560B,激活參數(shù)18.6B-31.3B(平均 27B),實現(xiàn)了計算效率與性能的雙重優(yōu)化。
根據(jù)多項基準測試綜合評估,作為一款非思考型基礎模型,LongCat-Flash-Chat在僅激活少量參數(shù)的前提下,性能比肩當下領先的主流模型,尤其在智能體任務中具備突出優(yōu)勢。
此外,因為面向推理效率的設計和創(chuàng)新,LongCat-Flash-Chat具有明顯更快的推理速度,更適合于耗時較長的復雜智能體應用。
LongCat-Flash的基礎測試性能
至于美團為何要加入大模型之戰(zhàn),或與公司AI戰(zhàn)略的三個層面有關,即AI at work、AI in products以及 Building LLM。
今年以來,美團AI進展頻傳,發(fā)布了AI Coding Agent工具 NoCode 、AI經(jīng)營決策助手袋鼠參謀、酒店經(jīng)營的垂類AI Agent美團既白等多款AI應用。此次模型開源則是其 Building LLM 進展的首度曝光。
再具體點看,LongCat-Flash模型在架構層面引入“零計算專家(Zero-Computation Experts)”機制,總參數(shù)量 560B,每個token依據(jù)上下文需求僅激活18.6B-31.3B參數(shù),實現(xiàn)算力按需分配和高效利用。為控制總算力消耗,訓練過程采用PID控制器實時微調專家偏置,將單token平均激活量穩(wěn)定在約27B。
此外,LongCat-Flash在層間鋪設跨層通道,使MoE的通信和計算能很大程度上并行,提高了訓練和推理效率。配合定制化的底層優(yōu)化,LongCat-Flash在30天內完成高效訓練,并在H800上實現(xiàn)單用戶100+tokens/s的推理速度。LongCat-Flash還對常用大模型組件和訓練方式進行了改進,使用了超參遷移和模型層疊加的方式進行訓練,并結合了多項策略保證訓練穩(wěn)定性,使得訓練全程高效且順利。
LongCat-Flash架構圖
針對智能體(Agentic)能力,LongCat-Flash自建了Agentic評測集指導數(shù)據(jù)策略,并在訓練全流程進行了全面的優(yōu)化,包括使用多智能體方法生成多樣化高質量的軌跡數(shù)據(jù)等。
通過算法和工程層面的聯(lián)合設計,LongCat-Flash在理論上的成本和速度都大幅領先行業(yè)同等規(guī)模、甚至規(guī)模更小的模型;通過系統(tǒng)優(yōu)化,LongCat-Flash在H800 上達成了100 token/s的生成速度,在保持極致生成速度的同時,輸出成本低至5元/百萬token。
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權,不得轉載。
- 責任編輯: 劉媛媛 
-
“亞太富豪直接進入黃金行業(yè)”,香港黃金交易中心蓄勢待發(fā)
2025-09-01 20:09 金融觀察 -
宜品集團遞表港交所,聚焦羊奶粉與特醫(yī)食品雙賽道
2025-09-01 19:41 觀網(wǎng)財經(jīng)-消費 -
-
關稅驟升,好孩子國際凈利大降43%
2025-09-01 19:36 觀網(wǎng)財經(jīng)-消費 -
十年增速低谷疊加“股王”地位松動,貴州茅臺坐不住了?
2025-09-01 17:52 觀網(wǎng)財經(jīng)-消費 -
2年融資數(shù)億、實控人臺灣籍,礪算首款顯卡對標英偉達4060?
2025-09-01 17:27 觀網(wǎng)財經(jīng)-科創(chuàng) -
阿里漲超18%,芯片有“后備方案”
2025-09-01 16:23 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
100%自主可控,運營商補采超2.3萬臺PC服務器
2025-09-01 14:44 觀網(wǎng)財經(jīng)-科創(chuàng) -
美聯(lián)儲“宮心計”,影響的不止是一個位子
2025-09-01 12:18 金融觀察 -
美股泡沫已現(xiàn)?標普500創(chuàng)紀錄高位,估值引發(fā)擔憂
2025-09-01 11:44 金融觀察 -
華為郭平:我們處在劇變的洪流中,不能靠情懷來占領市場
2025-09-01 11:26 觀網(wǎng)財經(jīng)-科創(chuàng) -
央行擬修改電子支付及信用卡規(guī)范:單筆不超1000、日付不超5000將刪除
2025-09-01 10:22 金融觀察 -
我國科學家在6G無線通信領域取得新突破
2025-09-01 10:18 觀網(wǎng)財經(jīng)-科創(chuàng) -
小米召回146891件充電寶
2025-09-01 10:04 觀網(wǎng)財經(jīng)-科創(chuàng) -
今起AI生成內容必須亮明身份;馬斯克稱代碼庫被盜;時代周刊年度AI100人
2025-09-01 08:44 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
進入債務轉換最后一年,龍湖今年再還200多億債務
2025-08-31 17:38 財務紅綠燈 -
從DS這串“亂碼”到寒武紀爆發(fā),更大驚喜是……
2025-08-30 22:43 觀察者頭條 -
“人工智能+”的試卷,AI釘釘搶答
2025-08-30 19:22 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
華為徐直軍:感謝騰訊、字節(jié)、阿里等對鴻蒙生態(tài)的支持
2025-08-30 17:20 觀網(wǎng)財經(jīng)-科創(chuàng) -
阿里美股漲超12%,外賣大戰(zhàn)“期中考”放榜
2025-08-30 12:37 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
相關推薦 -
馮德萊恩專機GPS失靈,俄羅斯否認歐盟指責 評論 55“若登月輸給中國,太尷尬,美國人要繃不住了” 評論 210習近平在上合峰會上的講話(全文) 評論 12談到中國留學生,特朗普:要跟核大國搞好關系 評論 159最新聞 Hot
-
“通話一度非常激烈,出現(xiàn)過大喊大叫”
-
德總理:要不是我們這么做,北約那天可能就解體了
-
馮德萊恩專機GPS失靈,俄羅斯否認歐盟指責
-
數(shù)萬大軍入烏計劃?馮德萊恩:特朗普承諾“做后盾”
-
“兩年后,‘中國風’又將席卷慕尼黑車展”
-
“中國留學生放棄美歐,這里將迎來十年黃金時代”
-
貴陽銀行連續(xù)三個年中報“雙降”:不良貸款率創(chuàng)新高
-
湖南銀行上半年業(yè)績承壓:營收凈利“雙降”,不良貸款率微升
-
烏前議長身中8槍身亡,澤連斯基:已抓獲嫌疑人
-
談到中國留學生,特朗普:要跟核大國搞好關系
-
美股泡沫已現(xiàn)?標普500創(chuàng)紀錄高位,估值引發(fā)擔憂
-
巴西最新民調:中國這方面超越美國,“特朗普成多極世界推銷員”
-
“持久戰(zhàn)里,中美誰更快?當然是中國”
-
美聯(lián)儲“宮心計”,影響的不止是一個位子
-
“AI爭霸賽,中國這招比美國高明”
-
“美歐都在和中國交流,我們卻...”
-