【財新網(wǎng)】智源研究院正式公布統(tǒng)一模態(tài)模型進展。10月21日,由科技部、北京市支持的民營非營利機構智源研究院發(fā)布了采用了自回歸(autoregressive)技術路線的多模態(tài)模型“Emu3”,同步上線開源社區(qū)供產(chǎn)業(yè)界進一步探索。
自回歸模型根據(jù)之前輸入的變量來預測下一個變量,是OpenAI推出的GPT系列語言大模型底層技術路徑,目前市面上大多數(shù)多模態(tài)大模型App是集成了不同架構的語言、文生圖、視頻模型,模型的訓練、推理亦相互獨立。僅有OpenAI今年5月發(fā)布的GPT-4o、國內(nèi)私募機構幻方量化旗下DeepSeek 10月發(fā)布的Janus等少數(shù)模型開始了該路線做多模態(tài)的探索,但尚未涉及文生視頻。