- 相關(guān)報(bào)道
- 【財(cái)新周刊】財(cái)新周刊|AI大模型開閉源之戰(zhàn)
- 【財(cái)新周刊】財(cái)新周刊|特別報(bào)道:中國AI大模型開閘
- 豆包是什么?AI應(yīng)用概念為何爆發(fā)?|解釋
- GPT革命|字節(jié)跳動(dòng)發(fā)布“豆包”大模型 花1元可處理200萬漢字
- GPT革命|字節(jié)跳動(dòng)發(fā)布豆包視頻生成大模型 強(qiáng)調(diào)商業(yè)落地
- 特稿|AI大模型場(chǎng)景未通先卷價(jià)格 中國云廠商在焦慮什么?
- GPT革命|谷歌與OpenAI“打擂臺(tái)” 發(fā)布新一代大模型Gemini 2.0
【財(cái)新網(wǎng)】字節(jié)跳動(dòng)正加速視覺、語音等多模態(tài)模型的商業(yè)化。12月18日上午,字節(jié)跳動(dòng)旗下火山引擎在上海發(fā)布豆包視覺理解模型,通過火山引擎開放給企業(yè)客戶,并再次打出了低于行業(yè)的定價(jià)。
視覺理解模型即“看圖說話”,可以識(shí)別圖像中的物體類別、形狀等要素,理解物體之間的關(guān)系,給出空間和場(chǎng)景的整體判斷,能用在圖片問答、醫(yī)療健康、教育、科研、電商等場(chǎng)景。
在現(xiàn)場(chǎng)演示中,豆包視覺理解模型識(shí)別出了雜志插圖中的外太空星云、一段“貪吃蛇”游戲代碼并給出修正意見、桌面上的物件和使用方法、體檢報(bào)告中的單項(xiàng)指標(biāo)解讀、聯(lián)想圖畫想表達(dá)的諺語、推薦穿搭以及根據(jù)實(shí)物發(fā)送抖音商城里的商品鏈接等。目前豆包視覺理解模型已經(jīng)接入豆包App和PC端產(chǎn)品。