freesexvideos性少妇kant,国产美女久久久亚洲综合,久久久精品国产sm调教网站,97色成人综合网站,高清欧美性猛交xxxx黑人猛交

財新傳媒
  • 發(fā)表評論
  • 分享到微信朋友圈
  • 新浪轉(zhuǎn)發(fā)

GPT革命|DeepSeek發(fā)布新開源模型 稱僅用2048卡訓(xùn)練、能力與GPT-4o相當

文|財新 劉沛林
2024年12月27日 22:58
DeepSeek新模型訓(xùn)練成本僅為557.6萬美元,較業(yè)界平均水平低了近一個數(shù)量級
資料圖:DeepSeek 公司logo。

  【財新網(wǎng)】開源模型還在不斷進化。12月26日,國內(nèi)私募機構(gòu)幻方量化旗下的DeepSeek發(fā)布新一代開源大模型DeepSeek-v3,DeepSeek稱該模型是目前最強的開源大模型,能力與閉源的GPT-4o相近,而訓(xùn)練僅需要2048張英偉達H800AI芯片。作為參考,OpenAI訓(xùn)練最新模型單集群算力規(guī)模超過萬卡。

  具體來看,DeepSeek此次發(fā)布的模型為MoE(混合專家架構(gòu))架構(gòu),即將任務(wù)分類后分配給不同的專家模型解決,參數(shù)量為6710億,激活參數(shù)為370億。

  DeepSeek提供的評測結(jié)果顯示,該模型在考察百科知識、代碼、數(shù)學(xué)能力的多個評測集中得分超過阿里云Qwen2.5-72B和Meta的Llama-3.1-405B這兩個最強的開源模型;在這些榜單中,DeepSeek-v3得分與OpenAI于2024年5月發(fā)布的GPT-4o,以及Anthropic于6月發(fā)布的Claude-3.5-Sonnet兩個標桿閉源模型得分齊平。

  推薦進入財新數(shù)據(jù)庫,可隨時查閱公司股價走勢、結(jié)構(gòu)人員變化等投資信息。

責(zé)任編輯:屈運栩 | 版面編輯:李東昊
推廣

財新網(wǎng)主編精選版電郵 樣例
財新網(wǎng)新聞版電郵全新升級!財新網(wǎng)主編精心編寫,每個工作日定時投遞,篇篇重磅,可信可引。
訂閱