【財新網(wǎng)】開源模型還在不斷進化。12月26日,國內(nèi)私募機構(gòu)幻方量化旗下的DeepSeek發(fā)布新一代開源大模型DeepSeek-v3,DeepSeek稱該模型是目前最強的開源大模型,能力與閉源的GPT-4o相近,而訓(xùn)練僅需要2048張英偉達H800AI芯片。作為參考,OpenAI訓(xùn)練最新模型單集群算力規(guī)模超過萬卡。
具體來看,DeepSeek此次發(fā)布的模型為MoE(混合專家架構(gòu))架構(gòu),即將任務(wù)分類后分配給不同的專家模型解決,參數(shù)量為6710億,激活參數(shù)為370億。
DeepSeek提供的評測結(jié)果顯示,該模型在考察百科知識、代碼、數(shù)學(xué)能力的多個評測集中得分超過阿里云Qwen2.5-72B和Meta的Llama-3.1-405B這兩個最強的開源模型;在這些榜單中,DeepSeek-v3得分與OpenAI于2024年5月發(fā)布的GPT-4o,以及Anthropic于6月發(fā)布的Claude-3.5-Sonnet兩個標桿閉源模型得分齊平。