12月3日,騰訊混元大模型正式上線視頻生成能力,這是繼文生文、文生圖、3D生成之后的又一新舉措。騰訊開源該視頻生成大模型,參數(shù)量130億,是當(dāng)前最大的視頻開源模型。
用戶只需要輸入一段描述,即可生成視頻,生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。目前該模型已上線騰訊元寶APP,用戶可在AI應(yīng)用中的“AI視頻”板塊申請試用。企業(yè)客戶通過騰訊云提供服務(wù)接入,目前API同步開放內(nèi)測申請。
據(jù)騰訊混元的多模態(tài)生成技術(shù)負(fù)責(zé)人凱撒介紹,目前視頻生成的開源生態(tài)差距比較大,最大的問題在于:圖像生成的算力和數(shù)據(jù)消耗與視頻是數(shù)量級之間的差距,因此,“大家不太有信心或者不太想把自己花這么多成本的模型開源出來給大家用;煸獙儆诤蟀l(fā)的模型,前面領(lǐng)先的很多機構(gòu)目前還是一個閉門造車的狀態(tài),有最好的模型大家也沒有用起來!
“視頻生成特別是文生視頻領(lǐng)域成熟度遠(yuǎn)沒有大家想象的那么高,失敗率很高,抽卡太多了。這個技術(shù)程度至少在我們內(nèi)部評估還沒有到大規(guī)模商業(yè)化的程度,還在技術(shù)打磨階段。在這個階段里,我們對外開源的操作,也是希望跟社區(qū)一起,把技術(shù)早日推向像圖像生成這種真正可用的狀態(tài)!眲P撒說道。
從年初以來,騰訊混元系列模型的開源速度不斷加快。此前,騰訊混元已經(jīng)開源了旗下文生文、文生圖和3D生成大模型。至此,騰訊混元系列大模型已實現(xiàn)全面開源。(文/趙小天 編輯/李不清)