展會信息港展會大全

騰訊混元上線AI生成視頻并全面開源,文生視頻領域仍處于技術打磨階段
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-04 08:27:09   瀏覽:78次  

導讀:每經(jīng)記者:黃婉銀每經(jīng)編輯:張海妮12月3日,騰訊混元大模型公布最新進展:正式上線視頻生成能力,這是繼文生文、文生圖、3D生成之后的又一里程碑。與此同時,騰訊開源該視頻生成大模型,參數(shù)量130億,是當前最大的視頻開源模型!坝脩糁恍枰斎胍欢蚊枋,即可生成視頻!彬v訊混元相關負責人透露,目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。目前該 ......

每經(jīng)記者:黃婉銀每經(jīng)編輯:張海妮

12月3日,騰訊混元大模型公布最新進展:正式上線視頻生成能力,這是繼文生文、文生圖、3D生成之后的又一里程碑。與此同時,騰訊開源該視頻生成大模型,參數(shù)量130億,是當前最大的視頻開源模型。

“用戶只需要輸入一段描述,即可生成視頻!彬v訊混元相關負責人透露,目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。目前該模型已上線騰訊元寶App,用戶可在AI應用中的“AI視頻”板塊申請試用。企業(yè)客戶通過騰訊云提供服務接入,目前API同步開放內(nèi)測申請。

《每日經(jīng)濟新聞》記者從上述負責人處了解到,作為視頻模型,騰訊混元團隊當初在進行設計時,在動作流暢性和大幅度動作上花費了很多心思。另外,現(xiàn)在很多視頻模型有個共同的問題就是在大幅運動的時候會出現(xiàn)畫面抖動,這個難題也是當時其著力解決的事情。

“我們這次模型是全部開源的,遵從混元結構體系,希望豐富社區(qū),我們的算法模型、加速工程都會開放給社區(qū),包括之后的圖聲視頻、驅動綁定和配樂都會按節(jié)奏去做開源,F(xiàn)在(AI)視頻生成其實差距還比較大,特別是在文生視頻領域,成熟度其實遠沒有到大家想象中那么高。”上述負責人告訴記者,一個月前就已經(jīng)把視頻生成模型訓練完畢,現(xiàn)在對外發(fā)布也是水到渠成。

目前,騰訊宣布開源該視頻生成大模型已在HuggingFace平臺及Github上發(fā)布,包含模型權重、推理代碼、模型算法等完整模型,可供企業(yè)與個人開發(fā)者免費使用和開發(fā)生態(tài)插件。

自年初以來,騰訊混元系列模型的開源速度不斷加快。此前,騰訊混元已經(jīng)開源了旗下文生文、文生圖和3D生成大模型。至此,騰訊混元系列大模型已實現(xiàn)全面開源。

上述負責人補充稱,目前文生視頻仍處于著重進行技術打磨的階段。在此階段推出相關成果,也是期望對外開源,希望與社區(qū)一起協(xié)作,促使這項技術早日達到像圖像生成那樣真正可用的狀態(tài),當下談論商業(yè)化還為時過早。

每日經(jīng)濟新聞

贊助本站

相關內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港