亚洲熟妇av日韩熟妇av,中国性xxx欧美性黑人xxx

APP下載

掃一掃

下載觀察者APP

DeepSeek和Kimi首輪就被淘汰，這項大模型對抗賽說明了什么？
- 張廣凱13764468101
分享到：

2025-08-06 18:14:03 字號：A- A A+ 來源：觀察者網(wǎng)

谷歌發(fā)起的“首屆大模型對抗賽”，在賽前就已經(jīng)話題度拉滿，但是隨著8月5日比賽正式打響，參賽AI展現(xiàn)出的水平或許令人有些失望。相比于兩款中國模型DeepSeek-R1和Kimi K2 Instruct的首輪折戟，比賽傳遞出的更重要信息在于，通用大模型的推理能力還存在普遍性缺陷。

低級失誤不斷的比賽

首先要說明的是，所謂“首屆大模型對抗賽”，其實在比賽形式和參賽AI大模型的選擇上都備受爭議。

這次比賽的形式是讓大模型兩兩捉對下國際象棋。谷歌DeepMind團隊，也就是2017年憑借AlphaGo徹底在棋類項目上擊敗人類的團隊，為大模型提供了技術(shù)接口，讓大模型能夠“看懂”棋盤。

參賽的8個大模型中，包括了OpenAI的o4-mini、o3，谷歌的Gemini 2.5 Pro、Gemini 2.5 Flash，Anthropic的Claude Opus 4，xA的Grok 4，以及來自中國團隊的DeepSeek-R1和Kimi K2 Instruct。

其中兩款中國模型的選擇受到了不少質(zhì)疑，首先，Kimi K2 Instruct并非推理模型，在下棋場景存在天然劣勢，而DeepSeek-R1已經(jīng)是半年前發(fā)布的“老模型”。因此，不管其表現(xiàn)如何，比賽結(jié)果都不能客觀反映中國大模型行業(yè)的真實水平。

在比賽的官方網(wǎng)站上，也有用戶提出了這樣的質(zhì)疑。而主辦方的回復(fù)稱，這次比賽只是一個開始，后續(xù)會將更多中國模型納入。

從首輪比賽結(jié)果來看，兩款中國模型也確實都表現(xiàn)不佳。

從對陣圖中可以看到，首輪四組對決都呈現(xiàn)“一邊倒”的態(tài)勢，獲勝方全部都取得了4-0的全勝戰(zhàn)績。

如果具體來看比賽過程，Kimi K2 Instruct不出意外是表現(xiàn)最差的模型，不光貢獻了僅僅4回合就被對手將死的最快敗局，還多次因為非法移動被判負（比賽規(guī)則設(shè)定，如果連續(xù)4次嘗試非法移動就會被判負）。

例如下面的場景中，Kimi試圖用白馬去吃掉對方的黑后，而沒有意識到馬是不能這樣移動的。即使在被人工告知這是非法移動后，它仍然堅持認為這是最優(yōu)走法。

在另外一局中，Kimi甚至無法正確識別棋子的位置。

事實上，盡管有不少低級錯誤，Kimi在每一盤的開局中都還表現(xiàn)中規(guī)中矩，能夠使用人類的經(jīng)典開局方式，顯示出大模型對于國際象棋的基礎(chǔ)知識是有認知的。只不過隨著局面開始復(fù)雜化，所有大模型都開始變得力不從心。

例如在下面這個場景中，DeepSeek-R1下出了糟糕的一步：把白后移動到c3的位置。

在推理過程中可以看到，DeepSeek-R1認為對方的黑后威脅到了己方c2的兵，因此打算將白后移動到c3，認為這樣可以逼迫黑后做出避讓，并用d列的白車威脅同列的黑王。

但是到了下一回合，白棋仿佛就忘記了前面的考慮，在明明有其它選擇的情況下，用自己的王擋住了車的路線，白白損失掉白后。

有國際象棋愛好者對觀察者網(wǎng)指出，這里更常規(guī)的選擇是白后D4吃兵，在將軍的同時還能解放出己方車的路線?？瓷先?，DeepSeek-R1似乎只能考慮到有限的幾種情況，缺乏多步推理和全局概念。

需要指出的是，這不是DeepSeek-R1獨有的問題，基本上每個大模型都在常規(guī)的開局后，迅速開始下出各種“昏招”。

在專業(yè)的國際象棋網(wǎng)站Chess.com看來，只有Grok 4的表現(xiàn)略勝一籌，能夠較好地識別和捕獲對方未設(shè)防的棋子。

馬斯克也在第一時間“炫耀”說，（下棋）只是Grok 4的“副作用”，他們并未對此做專門訓(xùn)練。

比賽的真正意義是什么？

那么從首日戰(zhàn)況來看，這項賽事到底說明了什么，又有多大意義？

首先，“首屆大模型對抗賽”這樣的說法，或許并不合適，因為比賽測試的僅僅是下國際象棋這樣的單一能力，并不能完全反映一個模型的綜合水平。

即使把重點放在“對抗”上，其實也早已經(jīng)有LM Arena這樣的知名對戰(zhàn)平臺。

但是谷歌的野心，也不僅僅是辦一場國際象棋比賽。事實上，本次比賽更像是谷歌為了打造一個更大規(guī)模LLM評價體系的“墊場賽”。

承辦本次比賽的Kaggle，本就是谷歌旗下知名的數(shù)據(jù)科學(xué)賽事平臺，在行業(yè)內(nèi)享有很高聲譽，如今在DeepMind加持下進軍LLM賽事，最終應(yīng)該是希望打造一套更加完整權(quán)威的評價體系。

當(dāng)前每逢各家大模型上新，“刷榜”已經(jīng)成了標(biāo)準(zhǔn)操作，各種“SOTA”層出不窮，但是業(yè)內(nèi)對這些榜單能否真正客觀體現(xiàn)模型能力，一直存在質(zhì)疑。甚至不排除模型在訓(xùn)練階段，就會針對榜單題目進行針對性優(yōu)化。

從這個角度來說，如果能夠建立一套新的評級體系，掌握評級話語權(quán)，對于谷歌在AI領(lǐng)域的地位將是極大的加強。

如果只看國際象棋比賽比賽本身，我們也可以看到，其對大模型能力的評估確實也有相當(dāng)?shù)膮⒖純r值。例如，非推理模型Kimi K2 Instruct的確表現(xiàn)較差，而Gemini 2.5 的Pro和Flash也體現(xiàn)出了能力差距。

而對行業(yè)來說，這項比賽也讓我們更清晰地看到，即使是2025年最新的推理大模型，在解決垂直問題時的表現(xiàn)，不但不如多年前的AlphaGo，甚至也可能遠遠不如受過基本訓(xùn)練的人類。單靠通用模型去做場景落地并不現(xiàn)實，這意味著應(yīng)用層面的創(chuàng)業(yè)者仍有廣闊空間。
|

舉報
- 違反法律法規(guī)
- 垃圾信息、廣告
- 色情、淫穢信息
- 人身攻擊
- 謠言、不實信息
- 冒充，冒用信息
- 破壞社區(qū)秩序
- 其他
- 涉未成年人有害信息
觀察者網(wǎng)舉報制度規(guī)范
確定取消
標(biāo)簽
- 責(zé)任編輯: 張廣凱
- 安踏接連落子，這次押寶“韓流”復(fù)興？
  
  2025-08-06 17:23 觀網(wǎng)財經(jīng)-消費
- “搶人大戰(zhàn)”繼續(xù)：阿里國際計劃秋招1000人，80%崗位與AI有關(guān)
  
  2025-08-06 16:54 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 對話格靈深瞳CEO：穿透WAIC熱度，透視AI落地的“硬功夫”
  
  2025-08-06 16:15 2025世界人工智能大會
- 特朗普施壓臺積電“極限二選一”？
  
  2025-08-06 11:33 觀網(wǎng)財經(jīng)-科創(chuàng)
- 樂摩吧再戰(zhàn)IPO：突擊分紅、場景錯配，53.5萬張按摩椅增收難增利
  
  2025-08-06 11:32 觀網(wǎng)財經(jīng)-消費
- 智利媒體關(guān)注中國動力電池前15強
  
  2025-08-06 11:10
- 全球平板出貨六連增：蘋果三星市占率下滑，華為升至第三
  
  2025-08-06 11:09 觀網(wǎng)財經(jīng)-科創(chuàng)
- 首屆大模型對抗賽即將開戰(zhàn)；OpenAI、Anthropic、谷歌同日上新
  
  2025-08-06 09:02 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 從美國轉(zhuǎn)向中國？巴西咖啡商瞄準(zhǔn)14億人新市場
  
  2025-08-05 20:05 觀網(wǎng)財經(jīng)-消費
- 對標(biāo)英偉達CUDA，華為宣布開源CANN
  
  2025-08-05 17:38 觀網(wǎng)財經(jīng)-科創(chuàng)
- 初代網(wǎng)紅小火鍋呷哺呷哺，5年間虧了13億
  
  2025-08-05 16:23 觀網(wǎng)財經(jīng)-消費
- 特朗普沒愛上白宮保潔，但短劇出海平臺ReelShort真攤上事了
  
  2025-08-05 14:59 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 盒馬X會員店全線撤退，8月底或?qū)㈥P(guān)閉全部門店
  
  2025-08-05 13:36 觀網(wǎng)財經(jīng)-消費
- 虧本14億甩掉深圳7塊地，華發(fā)股份急補現(xiàn)金流
  
  2025-08-05 13:19
- 美國啟動337調(diào)查，一加、聯(lián)想、TCL等成被告
  
  2025-08-05 11:13 觀網(wǎng)財經(jīng)-科創(chuàng)
- 竊取華為秘密被重判，中國芯沒有捷徑
  
  2025-08-05 09:25 觀網(wǎng)財經(jīng)-科創(chuàng)
- 騰訊混元開源多個小尺寸模型；小米推出168雨傘；京東震虎價不正當(dāng)競爭
  
  2025-08-05 09:06 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- “巨無霸”來了！中國船舶、中國重工最新公告
  
  2025-08-04 20:15 金融觀察
- 阿里 “掃地僧” 時隔三個月又跳槽，通義AI人才頻頻被挖
  
  2025-08-04 20:13 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 手機端也能流暢運行，騰訊混元宣布開源四款小尺寸模型
  
  2025-08-04 19:12 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
搜索

   觀察者頭條查看全部

美國又下黑手：撤銷三星、SK海力士在華工廠豁免評論 32

外媒又炒作中國赴烏維和部隊，白宮回應(yīng) 評論 110

白忙活了？“特朗普大發(fā)雷霆，怒噴烏歐不切實際” 評論 127

“收獲季到了，美國大豆卻又遭‘當(dāng)頭一棒’” 評論 67

被解職后，佩通坦發(fā)聲：接受裁決評論 151

   風(fēng)聞 · 24小時最熱查看全部

   最新視頻查看全部
最新聞 Hot
快訊

成人免费午夜在线观看,伊人久久精品,一区二区三区精品

DeepSeek和Kimi首輪就被淘汰，這項大模型對抗賽說明了什么？

安踏接連落子，這次押寶“韓流”復(fù)興？

“搶人大戰(zhàn)”繼續(xù)：阿里國際計劃秋招1000人，80%崗位與AI有關(guān)

對話格靈深瞳CEO：穿透WAIC熱度，透視AI落地的“硬功夫”

特朗普施壓臺積電“極限二選一”？

樂摩吧再戰(zhàn)IPO：突擊分紅、場景錯配，53.5萬張按摩椅增收難增利

智利媒體關(guān)注中國動力電池前15強

全球平板出貨六連增：蘋果三星市占率下滑，華為升至第三

首屆大模型對抗賽即將開戰(zhàn)；OpenAI、Anthropic、谷歌同日上新

從美國轉(zhuǎn)向中國？巴西咖啡商瞄準(zhǔn)14億人新市場

對標(biāo)英偉達CUDA，華為宣布開源CANN

初代網(wǎng)紅小火鍋呷哺呷哺，5年間虧了13億

特朗普沒愛上白宮保潔，但短劇出海平臺ReelShort真攤上事了

盒馬X會員店全線撤退，8月底或?qū)㈥P(guān)閉全部門店

虧本14億甩掉深圳7塊地，華發(fā)股份急補現(xiàn)金流

美國啟動337調(diào)查，一加、聯(lián)想、TCL等成被告

竊取華為秘密被重判，中國芯沒有捷徑

騰訊混元開源多個小尺寸模型；小米推出168雨傘；京東震虎價不正當(dāng)競爭

“巨無霸”來了！中國船舶、中國重工最新公告

阿里 “掃地僧” 時隔三個月又跳槽，通義AI人才頻頻被挖

手機端也能流暢運行，騰訊混元宣布開源四款小尺寸模型

外媒又炒作中國赴烏維和部隊，白宮回應(yīng)

美國又下黑手：撤銷三星、SK海力士在華工廠豁免

美歐持續(xù)重壓，最后一刻西班牙“毀約”

對華問題，普京最新表態(tài)

投訴“魯迅夾煙墻畫”當(dāng)事人，道歉了

民生銀行半年報：凈利潤下降4.87%、資產(chǎn)總額下降0.59%

光大銀行半年報：營收下降5.57%，但凈利潤增長0.55%

俄方：普京與金正恩會晤正在醞釀中

“意在制衡中國”，中方警告美日

鳩山將出席九三閱兵，日本政府回應(yīng)

女子上廁所多次遭偷窺，西安警方通報

白忙活了？“特朗普大發(fā)雷霆，怒噴烏歐不切實際”

莫迪在日本提到中國

“很高興受邀，中國戰(zhàn)勝日本是值得慶祝的歷史事件”

特朗普對哈里斯下手了

“已和以色列徹底決裂，包括經(jīng)濟”

DeepSeek和Kimi首輪就被淘汰，這項大模型對抗賽說明了什么？

DeepSeek和Kimi首輪就被淘汰，這項大模型對抗賽說明了什么？