展會(huì)信息港展會(huì)大全

AI大模型引燃,視頻云二次爆發(fā)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-19 10:20:18   瀏覽:2481次  

導(dǎo)讀:文|白 鴿 編|王一粟 2022年,受視頻直播等業(yè)務(wù)發(fā)展需求的影響,視頻云賽道成為各大廠集體押注的領(lǐng)域之一。 這一年,字節(jié)跳動(dòng)、快手相繼發(fā)布了背后的視頻云技術(shù)能力。而同期與之相爭(zhēng)的,除了阿里云、騰訊云、華為云等云計(jì)算大廠外,還包括聲網(wǎng)、七牛云等音...

AI大模型引燃,視頻云二次爆發(fā)

文|白 鴿

編|王一粟

2022年,受視頻直播等業(yè)務(wù)發(fā)展需求的影響,視頻云賽道成為各大廠集體押注的領(lǐng)域之一。

這一年,字節(jié)跳動(dòng)、快手相繼發(fā)布了背后的視頻云技術(shù)能力。而同期與之相爭(zhēng)的,除了阿里云、騰訊云、華為云等云計(jì)算大廠外,還包括聲網(wǎng)、七牛云等音視頻領(lǐng)域的垂直玩家。

但在此之后,視頻云賽道并未如預(yù)期中實(shí)現(xiàn)持續(xù)的爆發(fā)增長(zhǎng)。

2023年4月24日,IDC發(fā)布《中國(guó)視頻云市場(chǎng)跟蹤,2022下半年》報(bào)告顯示:2022 下半年中國(guó)視頻云市場(chǎng)規(guī)模達(dá)到 49.8 億美元(343.3 億人民幣),與2021年同期維持在同一水平。

2023年全年,中國(guó)視頻云基礎(chǔ)設(shè)施市場(chǎng)規(guī)模為75.1億美元,同比下滑5.2%,市場(chǎng)承壓明顯。

直到今年上半年,中國(guó)視頻云市場(chǎng)開(kāi)始止跌回升。

10月,IDC發(fā)布《中國(guó)視頻云市場(chǎng)跟蹤,2024上半年》報(bào)告顯示,2024上半年中國(guó)視頻云市場(chǎng)規(guī)模達(dá)到近48.1億美元,同比增長(zhǎng)3.9%。

IDC表示,2024年,主要音視頻平臺(tái)終端用戶DAU,及平均播放時(shí)長(zhǎng)止跌企穩(wěn)、直播帶貨以及部分場(chǎng)景需求持續(xù)增長(zhǎng)、出海服務(wù)范圍不斷拓展,均為視頻云市場(chǎng)回暖奠定基矗

這背后影響原因在于,生成式AI、多模態(tài)大模型與視頻云的產(chǎn)品融合實(shí)現(xiàn)了超預(yù)期進(jìn)展。同時(shí),隨著《黑神話:悟空》的爆火,全景直播、三維重建的成熟,視頻的交互與消費(fèi)鏈路也被重構(gòu)。

AI大模型引燃,視頻云二次爆發(fā)

“生成式AI、多模態(tài)大模型、全景直播、三維重建等技術(shù),將我們從流暢、實(shí)時(shí)、高清的數(shù)字世界帶入更智能、更交互、更沉浸的AI世界。”火山引擎總裁譚待在近期舉辦的視頻云技術(shù)大會(huì)上如此說(shuō)道。

無(wú)疑,受AI大模型的爆發(fā),拉動(dòng)了視頻云業(yè)務(wù)的二次增長(zhǎng)。但在智能化視頻時(shí)代,如何打造一個(gè)更高效、低成本以及更加廣泛應(yīng)用的技術(shù)底座,也成為擺在行業(yè)中的難題。

顛覆底層能力,AI加碼視頻云AI,正在改變?nèi)藗兊纳罘绞,尤其是GPT-4o發(fā)布之后,多模態(tài)大模型的應(yīng)用和落地。

在視頻內(nèi)容生產(chǎn)上,Sora的發(fā)布引發(fā)全球視頻大模型熱潮,僅在國(guó)內(nèi),就先后出現(xiàn)了字節(jié)系即夢(mèng)、快手系可靈,創(chuàng)業(yè)公司系Pika、智譜清影、生數(shù)科技Vidu等一眾明星產(chǎn)品。

這些平臺(tái)的出現(xiàn),不僅能夠大幅縮短UGC、PUGC音視頻創(chuàng)作時(shí)間,甚至是重塑生產(chǎn)流程,極大降低用戶生產(chǎn)門檻,讓“人人都是導(dǎo)演”成為現(xiàn)實(shí),內(nèi)容生產(chǎn)數(shù)量也將呈現(xiàn)幾何性增長(zhǎng)。

在語(yǔ)音方面,隨著端到端語(yǔ)音能力的升級(jí)迭代,也讓人機(jī)語(yǔ)音交互體驗(yàn)更流暢,AI情感陪伴賽道日漸火熱。

不管是AI視頻生成,還是端到端語(yǔ)音,多模態(tài)大模型的發(fā)展,給音視頻的智能化升級(jí)帶來(lái)了無(wú)限可能。同時(shí),功能升級(jí)也正在成為音視頻云服務(wù)市場(chǎng)的重要增量。

比如,直播帶貨已經(jīng)成為電商平臺(tái)和頭部商家的標(biāo)配,也是眾多中小商家的首眩而為了有更好的賣貨體驗(yàn),超低時(shí)延直播已經(jīng)成為直播電商平臺(tái)的必選產(chǎn)品,而集合上述技術(shù)的數(shù)字人直播帶貨,也成為很多商家的標(biāo)配。

AI大模型引燃,視頻云二次爆發(fā)

不過(guò),AI大模型也在倒逼著視頻云升級(jí)。

“這場(chǎng)變革主要體現(xiàn)在算力層、編解碼層以及框架層三個(gè)關(guān)鍵層面。”抖音集團(tuán)視頻架構(gòu)負(fù)責(zé)人王悅稱。

具體來(lái)說(shuō),在算力層,生成式AI技術(shù)正在大幅降低視頻生成的門檻,導(dǎo)致視頻數(shù)據(jù)以驚人的20倍速增長(zhǎng)。但同樣也對(duì)算力提出了更高的需求,以Sora模型為例,其訓(xùn)練和推理所需的算力需求分別達(dá)到了 GPT 4.0 的4.5倍和近400倍,凸顯了算力層變革的重要性和緊迫性。

與此同時(shí),隨著視頻生成大模型的興起,訓(xùn)練大模型的處理框架也面臨的諸多挑戰(zhàn),包括成本、質(zhì)量以及性能等諸多方面。

畢竟,超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集會(huì)導(dǎo)致計(jì)算和處理成本激增,視頻樣本數(shù)據(jù)質(zhì)量參差不齊,數(shù)據(jù)樣本有待分類、分段和清洗,處理鏈路會(huì)涉及到多個(gè)環(huán)節(jié),工程復(fù)雜,需要多團(tuán)隊(duì)的協(xié)同,而自研第三方CPU\GPU及多種機(jī)構(gòu)算力資源,也需要靈活的調(diào)度和部署。

相應(yīng)地,對(duì)于視頻云來(lái)說(shuō),框架層面不僅要能夠處理大模型的高效運(yùn)行,還要能夠滿足日益復(fù)雜的音視頻處理的需求,以應(yīng)對(duì)生成式AI時(shí)代所帶來(lái)的挑戰(zhàn)。

在編解碼層面,作為視頻處理的核心技術(shù),編解碼技術(shù)的智能化升級(jí)正在推動(dòng)著與智能技術(shù)的深度融合,這種融合不僅提升了編解碼效率,更為用戶帶來(lái)更加優(yōu)質(zhì)的視頻體驗(yàn)。

盡管挑戰(zhàn)重重,但也伴隨著更大的發(fā)展機(jī)遇。王悅分享了一組來(lái)自市場(chǎng)調(diào)研機(jī)構(gòu)的數(shù)據(jù):

視頻是云業(yè)務(wù)中增長(zhǎng)最快的工作負(fù)載之一;到2026年,視頻在數(shù)據(jù)中心基礎(chǔ)設(shè)施中的占比將從10%增長(zhǎng)到20%~25%;到2024~2030年,市場(chǎng)規(guī)模預(yù)計(jì)將達(dá)千億美元。

這也就意味著,視頻云業(yè)務(wù)的市場(chǎng)增長(zhǎng)空間還很大。不過(guò),從算力、到編碼,再到框架,音視頻領(lǐng)域各層級(jí)的技術(shù)體系和架構(gòu),都需要適應(yīng)AI時(shí)代所帶來(lái)的變革發(fā)展。

背靠抖音,火山引擎能否彎道超車在視頻云市場(chǎng)中,主要存在著三類玩家:

一類是云廠商,以阿里云、騰訊云、華為云、百度智能云等為主的玩家,其中阿里云和騰訊云長(zhǎng)期占據(jù)視頻云領(lǐng)域云基礎(chǔ)設(shè)施和解決方案市場(chǎng)的首位。

一類是抖音和快手兩大視頻平臺(tái),不過(guò)抖音背后的火山引擎,也屬于云服務(wù)商,但其視頻云業(yè)務(wù)實(shí)質(zhì)是脫胎于視頻生產(chǎn)平臺(tái)。

一類是實(shí)時(shí)音視頻行業(yè)垂直廠商聲網(wǎng)、七牛云等。

上述幾家廠商,主導(dǎo)了視頻云賽道的市常

IDC數(shù)據(jù)顯示,2024上半年,視頻內(nèi)容分發(fā)網(wǎng)絡(luò)服務(wù)(點(diǎn)播帶寬)市場(chǎng)中,阿里云、騰訊云、華為云、中國(guó)電信、火山引擎、網(wǎng)心科技合計(jì)市場(chǎng)份額環(huán)比提升,本期達(dá)到63.4%。

視頻直播云服務(wù)市場(chǎng)中,騰訊云、華為云、阿里云、火山引擎、金山云合計(jì)市場(chǎng)份額環(huán)比提升,本期達(dá)到66.1%。音視頻通信云服務(wù)(RTC/RTE)市場(chǎng)中,聲網(wǎng)、騰訊云、即構(gòu)科技、火山引擎、阿里云合計(jì)市場(chǎng)份額環(huán)比持平,為78.3%。

其中,騰訊云音視頻的解決方案市場(chǎng)份額連續(xù)8次蟬聯(lián)榜首,在視頻直播云服務(wù)市嘗視頻生產(chǎn)與媒資管理領(lǐng)域,市場(chǎng)份額也均排名第一。

AI大模型引燃,視頻云二次爆發(fā)

火山引擎作為后來(lái)者,生生的在競(jìng)爭(zhēng)激烈且穩(wěn)固的視頻云賽道中,撕開(kāi)了一條口子。2024上半年,火山引擎在中國(guó)視頻內(nèi)容分發(fā)網(wǎng)絡(luò)服務(wù)市場(chǎng)中,占了5.1%的市場(chǎng)份額。

但也不難看出,火山引擎的視頻云業(yè)務(wù)在國(guó)內(nèi)市場(chǎng)的競(jìng)爭(zhēng)壓力還是不校

相比于云廠商和聲網(wǎng)、七牛云等,火山引擎視頻云業(yè)務(wù)能借力的,顯然就是抖音這顆大樹(shù)。

基于抖音生態(tài)場(chǎng)景實(shí)踐所推出的技術(shù)能力體系以及各類型解決方案,也將會(huì)成為火山引擎視頻云業(yè)務(wù)的“殺手锏”。

比如,王悅透露了字節(jié)自研視頻編解碼芯片的最新進(jìn)展,經(jīng)過(guò)抖音內(nèi)部的實(shí)踐驗(yàn)證,該芯片在同等視頻壓縮效率下,成本節(jié)省了95%以上,還在2024MSU世界編碼器大賽中一舉奪得最佳ASIC編碼器。

編碼對(duì)于視頻業(yè)務(wù)的發(fā)展至關(guān)重要。

畢竟視頻云是一個(gè)算力密集型行業(yè),視頻信息量很大,假如采用和文本、圖片一樣的壓縮模式,那么還原度是不夠的,所以視頻必須進(jìn)行編碼處理。編碼要是做不好,不僅會(huì)損失視頻質(zhì)量,還會(huì)帶來(lái)傳輸難度高的問(wèn)題。

與此同時(shí),從視頻的生產(chǎn)端、交互端到消費(fèi)端,火山引擎的跨語(yǔ)言同聲復(fù)刻直播方案、多模態(tài)視頻理解與生成方案、對(duì)話式AI實(shí)時(shí)交互方案和AIG3D&大場(chǎng)景重建方案也全鏈路融入AI能力,以適配AIGC時(shí)代對(duì)視頻云業(yè)務(wù)的需求。

在生產(chǎn)端,今年9月份,字節(jié)跳動(dòng)正式發(fā)布了豆包視頻生成模型PixelDance。

AI大模型引燃,視頻云二次爆發(fā)

抖音集團(tuán)視頻架構(gòu)負(fù)責(zé)人 王悅

為了降低用戶使用豆包視頻生成模型的成本,借助Intel的CPU、GPU等不同資源,火山引擎發(fā)布了大模型訓(xùn)練視頻預(yù)處理方案,其依托于自研的多媒體處理框架BMF,能有效應(yīng)對(duì)模型訓(xùn)練的算力成本挑戰(zhàn)。

據(jù)Bytedance Research 負(fù)責(zé)人李航介紹,豆包視頻生成模型PixelDance在訓(xùn)練過(guò)程中采用了火山引擎的大模型訓(xùn)練視頻預(yù)處理方案,充分利用了大量潮汐資源,為模型訓(xùn)練提供了有力支撐。

火山引擎視頻云團(tuán)隊(duì)提供的點(diǎn)播解決方案還為PixelDance生產(chǎn)的視頻提供了從編輯、上傳、轉(zhuǎn)碼、分發(fā)、播放的全生命周期一站式服務(wù),讓模型的商業(yè)化應(yīng)用有了保障。

AI大模型引燃,視頻云二次爆發(fā)

值得一提的是,火山引擎還發(fā)布并開(kāi)源了移動(dòng)端后處理解決方案BMF lite版本。BMF lite支持端側(cè)大模型接入和算子加速,更加輕量、通用。

在通用性上,BMF-lite則提供了多平臺(tái)統(tǒng)一的接口形式,讓所有開(kāi)發(fā)者都能輕松使用BMF-lite。而隨著視頻處理越來(lái)越從云上向端側(cè)遷移,BMF-lite還新增了對(duì)端側(cè)大模型的接入支持,為AI技術(shù)的融合提供了強(qiáng)大的支持。

“當(dāng)前BMF-lite已經(jīng)廣泛地應(yīng)用在了抖音的各個(gè)業(yè)務(wù)上,每天服務(wù)于上億用戶,處理視頻圖片萬(wàn)億次。”王悅?cè)绱苏f(shuō)道。

在交互端,火山引擎視頻云負(fù)責(zé)人Yongyuan 指出,在AI視頻時(shí)代,人和AI交互變得更加動(dòng)態(tài)和生動(dòng),這要求處理鏈路更加智能和交互。

以對(duì)話式AI實(shí)時(shí)交互方案為例,依托豆包大模型和火山引擎視頻云自研的多項(xiàng)算法,火山引擎為用戶提供了智能對(duì)話和自然語(yǔ)言處理的強(qiáng)大能力,可實(shí)現(xiàn)毫秒級(jí)人聲檢測(cè)和打斷響應(yīng),以及絲滑穩(wěn)定的端到端響應(yīng)體驗(yàn)。

在消費(fèi)端,尤其是沉浸式消費(fèi)體驗(yàn)方面,以蘋果Vision Pro為代表,開(kāi)啟了空間計(jì)算的新時(shí)代。

在此之后,今年7月,抖音VR直播上線,9月《黑神話:悟空》以其極具震撼力的視頻畫面質(zhì)感、跌宕起伏的劇情架構(gòu)和深厚的文化底蘊(yùn),迅速吸引全球玩家。

3D、虛實(shí)融合與VR技術(shù),將成為消費(fèi)端變革的主力軍,架起數(shù)字世界與物理世界之間的橋梁。

而火山引擎通過(guò)AI生成3D內(nèi)容和大場(chǎng)景重建方案,為山西高平二郎廟金代戲臺(tái)和北京正乙祠兩座珍貴的歷史建筑生成了3D數(shù)字資產(chǎn),并以虛擬直播間的形式應(yīng)用于抖音的戲曲直播場(chǎng)景。

可以看到,火山引擎的視頻云業(yè)務(wù),雖是行業(yè)中的后起之秀,但伴隨著自身抖音業(yè)務(wù)的發(fā)展和切實(shí)的場(chǎng)景需求,視頻云業(yè)務(wù)也在逐步上漲。

然而,長(zhǎng)期以來(lái),視頻云賽道也盤踞著各大巨頭,火山引擎想要彎道超車并不容易,而向海外尋求新的市場(chǎng)增量,則或許成為新的機(jī)會(huì)。

國(guó)內(nèi)競(jìng)爭(zhēng)白熱化,出海尋求新增量雖然AI大模型時(shí)代的到來(lái),重新開(kāi)啟云計(jì)算市場(chǎng)的新增長(zhǎng),但國(guó)內(nèi)卻已然開(kāi)啟了“內(nèi)卷” 模式。

今年2月份,阿里云率先開(kāi)啟價(jià)格戰(zhàn)模式,宣布進(jìn)行史上最大力度的一次降價(jià),涉及100多款產(chǎn)品、500多個(gè)產(chǎn)品規(guī)格,覆蓋計(jì)算、存儲(chǔ)、數(shù)據(jù)庫(kù)等所有核心產(chǎn)品,降幅從9%到55%不等。

這是阿里云明確"AI驅(qū)動(dòng),公共云優(yōu)先”戰(zhàn)略3個(gè)月之后的首個(gè)大動(dòng)作,也是自去年11月阿里云進(jìn)行新一輪組織架構(gòu)調(diào)整,成立公共云業(yè)務(wù)事業(yè)部后舉行的首次重磅發(fā)布會(huì)。

而在此之后,京東云、百度智能云以及騰訊云等紛紛跟進(jìn),在各大營(yíng)銷節(jié)點(diǎn)中,華為云也推出了各種低價(jià)促銷活動(dòng)。

大模型端,則是在今年5月,由字節(jié)豆包大模型率先發(fā)起降價(jià)攻勢(shì),宣布主流大模型在企業(yè)市場(chǎng)的定價(jià)為0.0008元/千Tokens,0.8厘就能處理1500多個(gè)漢字,比行業(yè)便宜99.3%。

此后,包括阿里云等在內(nèi)的云廠商、智譜AI等在內(nèi)的大模型公司,都開(kāi)始紛紛降低大模型價(jià)格。

視頻云業(yè)務(wù)雖然是云計(jì)算領(lǐng)域中的細(xì)分市場(chǎng),但卻難以避免受到這波“內(nèi)卷”的影響。

更何況,騰訊云、阿里云等頭部玩家,基本上已經(jīng)搶占了國(guó)內(nèi)大部分視頻云市場(chǎng)份額,留給火山引擎的“肉”和“湯”,并不多。

也正因此,近年來(lái)火山引擎的視頻云業(yè)務(wù),也正加速走向海外市場(chǎng),尋求更多的新的市場(chǎng)增量。

目前,火山引擎的出海業(yè)務(wù)主要聚焦在4大領(lǐng)域,包括互娛社交出海、短劇及內(nèi)容出海、游戲出海以及電商出海。

其中,在直播電商這塊,則主要依托于海外的抖音平臺(tái)Tiktok,“因?yàn)橛欣麧?rùn)可以賺,海外市場(chǎng)的價(jià)格比較貴,而且向東南亞或歐洲市場(chǎng)做的直播電商,也是復(fù)制了中國(guó)的經(jīng)驗(yàn),所以我們才布局這些市場(chǎng)的直播電商業(yè)務(wù)。”火山引擎電商產(chǎn)品相關(guān)負(fù)責(zé)人對(duì)光錐智能說(shuō)道。

據(jù)火山引擎視頻云國(guó)際業(yè)務(wù)負(fù)責(zé)人梁建介紹,火山引擎也會(huì)在海外版的方案中支持接入海外主流AI大模型服務(wù),并通過(guò)整合這些先進(jìn)大模型的技術(shù)和交互體驗(yàn),來(lái)深度優(yōu)化出海應(yīng)用,使其能夠具備低時(shí)延、多模態(tài)的AI實(shí)時(shí)交互能力。

近年來(lái),中國(guó)企業(yè)正在加速出海,尤其是在中國(guó)市場(chǎng)日益內(nèi)卷的情況,走向海外成為必然趨勢(shì)。與此同時(shí),隨著大模型能力的不斷提升,國(guó)產(chǎn)AI應(yīng)用也正在加速走向海外。

火山引擎作為國(guó)內(nèi)云計(jì)算賽道中的后來(lái)者,一直處于行業(yè)追趕者的地位,而借助抖音自身生態(tài)體系的力量,以及向海外尋求新的增量,或許能夠讓火山引擎在視頻云賽道中實(shí)現(xiàn)彎道超車。

贊助本站

相關(guān)熱詞: 大模型 引燃 視頻 二次 爆發(fā)

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港