前不久,火山引擎利用3DGS技術(shù)把山西高平二郎廟和北京正乙祠兩座珍貴的歷史戲臺建筑“搬進(jìn)”了虛擬直播間,其應(yīng)用于抖音戲曲直播的虛實(shí)融合效果得到了京劇專業(yè)人士的贊許。讓技術(shù)有溫度,火山引擎這些年一直堅持用新技術(shù)做文化傳承。
2024年被視為AI應(yīng)用元年,生成式AI迎來了爆發(fā)式增長。它不僅改變了音視頻的生產(chǎn)與交互方式,也開始快速滲透進(jìn)千行百業(yè),但也在應(yīng)用落地進(jìn)程中對背后的音視頻技術(shù)底座、多媒體處理架構(gòu)、甚至芯片能力提出更高要求;而海量智能終端設(shè)備對大模型的調(diào)用需求,也對邊緣智能和云邊端協(xié)同發(fā)出更高挑戰(zhàn)。IDC報告認(rèn)為,生成式AI的IaaS市場去年實(shí)現(xiàn)爆發(fā)式增長,在AI與云有雙向積累的公司獲得了先發(fā)優(yōu)勢。
12月19日,智源研究院發(fā)布最新一期大模型綜合及專項評測結(jié)果。在覆蓋國內(nèi)外100余個開源和商業(yè)閉源大模型的評測中,豆包通用模型pro獲得大語言模型主觀評測最高分;在多模態(tài)模型評測中,豆包視覺理解模型排名視覺語言模型第二,成績僅次于GPT-4o;豆包文生圖模型、豆包視頻生成模型(即夢P2.0 pro)也分別在相應(yīng)測試中獲得全球第二。
在一眾“大廠”云+AI的布局中,火山引擎正以領(lǐng)先的技術(shù)創(chuàng)新切中用戶需求,在行業(yè)落地中找準(zhǔn)自身的生態(tài)位。為了進(jìn)一步拓寬行業(yè)覆蓋,火山引擎一年來在視頻云、邊緣云等領(lǐng)域做了諸多技術(shù)創(chuàng)新,并結(jié)合大模型與企業(yè)客戶一起驅(qū)動業(yè)務(wù)創(chuàng)新。
大模型深入音視頻
今年7月,抖音首部AIGC短劇《三星堆:未來啟示錄》上線,收獲了驚人的1.4億次播放量。這部有專業(yè)影視制作公司合作的劇作呈現(xiàn)出大片的既視感。它向業(yè)界交出一份答卷:生成式AI是創(chuàng)作背后的輔助工具,思想與情感的傳達(dá)仍是由人在主導(dǎo),生成式AI將是審美加分項。從文生文、文生圖,到文生視頻,這些都已成為現(xiàn)實(shí)生產(chǎn)力。
眼下,生成式AI、多模態(tài)大模型、全景直播、3D生成等技術(shù)將數(shù)字視頻帶入AI視頻時代,從追求視頻的高清、實(shí)時,到追求更智能、更具交互性。由此也帶來兩個嚴(yán)峻的考驗:一是AIGC方式下的視頻數(shù)據(jù)量指數(shù)級增長對技術(shù)底座提出更高要求,比如視頻數(shù)據(jù)以20倍的速度在增長,使得背后的計算成本與效率問題凸顯;二是多模態(tài)媒體處理需求的增長對音視頻處理全鏈路提出了新的要求,涉及視頻的生產(chǎn)、交互與消費(fèi)各環(huán)節(jié)。
針對前者,火山引擎去年至今集中做了一些底層自研探索,比如在抖音里使用自研視頻轉(zhuǎn)碼芯片,可在同等視頻壓縮效率下獲得數(shù)十倍的成本節(jié)約;它還基于深度學(xué)習(xí)的圖像視頻壓縮技術(shù),對自研的編解碼技術(shù)BVC進(jìn)行持續(xù)優(yōu)化;去年就已經(jīng)推出自研的多媒體處理開源框架BMF,今年升級后支撐了諸如豆包PixelDance等視頻生成大模型的上線與調(diào)優(yōu)。
針對后者,即位于上面的音視頻應(yīng)用,火山引擎視頻云主要是將豆包大模型及平臺AI能力去和音視頻的全鏈路處理進(jìn)行結(jié)合,使得內(nèi)容生產(chǎn)更智能、人與AI交互更擬人、虛實(shí)融合更沉浸。
設(shè)想一場演講直播如何同時滿足不同語種收看者的需求?畫面中還是演講者本人,他可以實(shí)時出現(xiàn)在中文、英語或其他語種的頻道中,供觀眾任意進(jìn)行多語言切換。技術(shù)針對演講內(nèi)容實(shí)時進(jìn)行跨語言翻譯輸出,再利用AI機(jī)器學(xué)習(xí)高度還原演講者的聲音特點(diǎn)和說話風(fēng)格,并讓后臺算法根據(jù)所輸出語言的不同對虛擬人口型進(jìn)行差異化匹配,是不是會立刻產(chǎn)生一種身臨其境的聆聽效果?這就是火山引擎已經(jīng)實(shí)施的“聲影同傳方案”,適用于同傳直播場景的內(nèi)容生產(chǎn)。
在本月18日舉行的火山引擎冬季FORCE原動力大會上,在中文直播的同時,同聲的英語頻道采用的就是跨語言同聲復(fù)刻方案。它以“跨語言直播”的方式,用AI“擬聲”出主論壇所有演講嘉賓的聲音特點(diǎn)和口型,實(shí)時呈現(xiàn)英語演講。
生產(chǎn)端的創(chuàng)新還體現(xiàn)在“多模態(tài)視頻理解與生成方案”。它整合了語音識別、文字識別、自然語言處理、視頻理解和視頻生成等多種模態(tài)模型的能力,可適用于體育賽事直播、教育、節(jié)目劇集等多種場景:比如對課程知識點(diǎn)的精準(zhǔn)提煉、短時間內(nèi)針對一部劇集制作批量化的引流短視頻、在一場球賽直播中快速制作進(jìn)球回放視頻等。
在音視頻交互端,對話式AI的技術(shù)完善讓大模型享有更寬廣的應(yīng)用場景,與硬件融合正成為重要趨勢。同樣在本次火山引擎冬季FORCE原動力大會上,火山引擎視頻云與lOT芯片領(lǐng)域的領(lǐng)先企業(yè)樂鑫科技正式聯(lián)合發(fā)布硬件對話式AI解決方案,提供了功能全面、即插即用的語音交互模組,旨在為硬件設(shè)備的智能化升級加速。目前,這一聯(lián)合解決方案已與Toycity、Folotoy、魂伴科技等多領(lǐng)域硬件品牌方展開合作,共同推動智能硬件行業(yè)的發(fā)展。比如,魂伴科技(Cyber Partner)在做的就是融合AI軟硬件技術(shù)賦予IP角色破次元能力,打造“有趣、有料、有AI”的產(chǎn)品,讓每個人都能擁有自己的賽博伙伴。
而在音視頻消費(fèi)端,火山引擎聯(lián)合豆包大模型推出了3D生成模型Beaver3D。與傳統(tǒng)手工3D建模相比,3D生成模型在生產(chǎn)效率上有明顯優(yōu)勢,它針對多模態(tài)的圖、文建模,1分鐘就可以生成高保真高質(zhì)量的3D資產(chǎn)。該模型與火山引擎數(shù)字孿生平臺veOmniverse結(jié)合使用,可以高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作。
為提升3D數(shù)字形象在實(shí)際場景中的虛實(shí)無縫融合,火山引擎還推出了大場景重建方案,將3DGS渲染技術(shù)與自研大場景建模技術(shù)相結(jié)合。上述北京和山西的兩座古戲臺在這一技術(shù)加持下,在抖音戲曲直播的虛擬布景中重新散發(fā)出流光溢彩的視覺效果。而這兩座戲臺能成為直播間虛擬背景,本身也應(yīng)用了3D生成模型方案。
另外在傳統(tǒng)視頻交互中,觀眾不能自由選擇拍攝機(jī)位與觀看視角。但基于3DGS重建的6DoF直播方案,可以讓觀眾在播放端高自由度地觀看多角度的3D直播內(nèi)容,實(shí)現(xiàn)高質(zhì)量、低延遲、360度看直播。抖音VR直播目前已能讓普通用戶采用一部手機(jī)或者相機(jī)即可開播,并能在播放端體驗到一定范圍內(nèi)的多視角3D直播內(nèi)容。
讓邊緣AI應(yīng)用落地更容易
AI技術(shù)帶來了前所未有的極致交互體驗,同時也對硬件融合以及技術(shù)底座支撐提出了更高的要求,AI 2.0時代已經(jīng)到來。
現(xiàn)在,一部手機(jī)不僅是高清視頻、VR直播的生產(chǎn)工具,還可以成為AI智能體的一種“物理延伸”。隨著AI PC、AI手機(jī)、AI玩具以及智能眼鏡、耳機(jī)等可穿戴設(shè)備的普及,這些設(shè)備與大模型的結(jié)合衍生出豐富的端智能應(yīng)用場景。除了個人消費(fèi)場景之外,端智能在工業(yè)生產(chǎn)、能源、機(jī)器人等ToB基礎(chǔ)行業(yè)的應(yīng)用更早、也更深刻。邊緣智能的需求也逐步演變升級。
在與眾多客戶深入合作的過程中,火山引擎邊緣智能也洞察到新時代的技術(shù)挑戰(zhàn)。比如,端智能在落地過程的問題和挑戰(zhàn)可以總結(jié)歸納為四個“多”:“多平臺集成”、“多SDK適配”、“多重設(shè)備身份管理”、“多種模型協(xié)同”。
其次,從端側(cè)發(fā)起的AI服務(wù)調(diào)用越來越多,但整體上受限于功耗、成本等原因,端側(cè)設(shè)備的算力遠(yuǎn)落后于中心計算。這就迫使業(yè)界將模型“小型化”,但這意味著模型通用性的減弱。
面向AI 2.0時代,如何突破限制,加速大模型落地?火山引擎邊緣智能給出了自己的答案。
首先,針對端智能面臨的四個“多”問題,推出了三個“一”的解決方案端側(cè) OneSDK、OneCredential 和 OneStop 一站式服務(wù)。具體來說,OneSDK,即端側(cè)僅需集成一個SDK,即可一站式解決在線升級(OTA)、日志記錄、遠(yuǎn)程登入、設(shè)備管理等設(shè)備運(yùn)維需求,以及設(shè)備密鑰、設(shè)備證書等設(shè)備安全需求,還能滿足多模型和多智能體調(diào)用的設(shè)備智能需求。同時,提供硬件抽象層(HAL)接口,以便在 RTOS、其他嵌入式操作系統(tǒng),甚至是無操作系統(tǒng)的設(shè)備上輕松遷移SDK。OneCredential支持云上多平臺間的身份互認(rèn)和權(quán)限穿透,使得設(shè)備端可以共享一套密鑰和證書,在確保安全性的同時,降低了成本并提升了性能。OneStop是通過深度融合端云技術(shù)打造的一站式端智能體方案,能大幅降低端側(cè)智能體的開發(fā)與接入門檻。
在通過這一套OneSDK端智能一站式方案來統(tǒng)一端側(cè)標(biāo)準(zhǔn)之后,以智能決策器決策在本地完成推理,還是將推理請求智能路由至邊或云的算力中。對于推理請求需要轉(zhuǎn)發(fā)到設(shè)備之外的場景,火山引擎邊緣大模型網(wǎng)關(guān)提供了四大能力,幫助客戶加速云邊大腦的訪問:一是網(wǎng)關(guān)的適配性,提供與OpenAI完全一致的接口,并屏蔽接口差異,幫助開發(fā)者更容易在模型間遷移;二是海量的邊緣云節(jié)點(diǎn),并通過流量調(diào)度,提供端側(cè)就近接入大模型;三是通過各類緩存、邊緣推理等方式進(jìn)行查詢加速;四是在穩(wěn)定性上,通過多模型廠商間的故障遷移以及錯誤重試,提升請求的魯棒性。
此外,產(chǎn)業(yè)未來的一個發(fā)展趨勢是,從基礎(chǔ)模型向多樣化智能體轉(zhuǎn)變,即“千模走向萬體”;A(chǔ)模型的持續(xù)迭代推動了智能體的發(fā)展,同時市場正專注于特定領(lǐng)域智能體的開發(fā),帶動了應(yīng)用、平臺和基礎(chǔ)設(shè)施的匹配發(fā)展。在這一進(jìn)程中,邊緣原生智能體將扮演關(guān)鍵角色通過理解設(shè)備能力,結(jié)合用戶的輸入進(jìn)而實(shí)現(xiàn)自主感知或操控設(shè)備,并在端-邊-云之間進(jìn)行靈活調(diào)度,甚至實(shí)現(xiàn)多智能體協(xié)同完成更為復(fù)雜的任務(wù)。
基于這一構(gòu)想,火山引擎邊緣智能聯(lián)動扣子,通過定制插件和工作流讓智能體具備感知、操作設(shè)備的能力,目前已在智能數(shù)字工廠、智慧園區(qū)落地。管理者只需通過設(shè)備,即可實(shí)時查詢工廠或園區(qū)情況、掌握各類數(shù)據(jù),進(jìn)一步提高管理水平。
質(zhì)檢智能體也在解決傳統(tǒng)質(zhì)檢中無法反映中間過程質(zhì)量的難點(diǎn)。火山引擎邊緣智能利用多模態(tài)大模型,以工廠具體制定的SOP(標(biāo)準(zhǔn)化作業(yè)程序)為輸入,智能監(jiān)督整個工序過程是否符合規(guī)范,最終提高了質(zhì)檢的全面性和準(zhǔn)確性。
實(shí)現(xiàn)高智能水平的多智能體協(xié)同調(diào)度任務(wù),還有賴于高效可靠的云邊端網(wǎng)絡(luò)通信。火山引擎利用分布在全球2500多個邊緣云節(jié)點(diǎn),建設(shè)了全球分布式云網(wǎng)基礎(chǔ)設(shè)施,面向端-邊互聯(lián)、邊-邊互聯(lián)以及邊-云場景提供從1ms到40ms時延的廣域網(wǎng)絡(luò)接入,支持智能應(yīng)用就近上云。此外,它的分布式邊緣云異構(gòu)算力解決方案可以為用戶就近提供多形態(tài)異構(gòu)算力,具備小型化與輕量化的特點(diǎn),支持算力、服務(wù)混合部署,集群功能按需調(diào)配,最大化利用資源。
與此同時,AI技術(shù)應(yīng)用發(fā)展雖快卻并不夠成熟,在傳統(tǒng)安全威脅之外,還面臨諸如幻覺攻擊、對抗性攻擊等新型安全攻擊和挑戰(zhàn)。尤其在智能體連接物理世界的過程中,這種威脅也將傳導(dǎo)至實(shí)體。
對此,火山引擎邊緣智能在傳統(tǒng)的安全防護(hù)措施,如 DDoS 防護(hù)、WAF 和頻次控制的基礎(chǔ)上,增添了針對 AI 2.0 時代的邊緣安全防護(hù)功能。具體來說,在輸入層對輸入的提示詞進(jìn)行安全性檢測,拒絕任何不安全或不合規(guī)的提示詞請求,同時,通過提示詞擾動,降低提示詞的安全風(fēng)險。另外,通過在系統(tǒng)提示詞中有針對地添加防御性的描述,增強(qiáng)大模型對提示詞攻擊的防范能力。在輸出層,對智能體的輸出結(jié)果進(jìn)行深入分析和檢測,以提高結(jié)果的安全性和合規(guī)性。
隨著大模型深入千行百業(yè),“每個App都值得用大模型重做一遍”的豪言壯語響徹業(yè)內(nèi)。但在實(shí)際中,各行業(yè)的Know- How不是大模型平臺朝夕間就能掌握的。
針對特定領(lǐng)域的智能體開發(fā)是大模型落地的加速器,這一過程體現(xiàn)為AI生態(tài)的價值。在火山引擎邊緣智能研發(fā)負(fù)責(zé)人謝皓看來,“融入生態(tài)不僅是被集成,而是一種相向而行的互相集成。”
基于這一理念,最近一年,火山引擎邊緣智能已在不同領(lǐng)域推進(jìn)行業(yè)生態(tài)合作,幫助眾多企業(yè)加速落地大模型,助力業(yè)務(wù)增長。比如地瓜機(jī)器人通過集成邊緣大模型網(wǎng)關(guān)入口,支持開發(fā)者通過標(biāo)準(zhǔn)化的ROS接口調(diào)用大模型,同時大模型網(wǎng)關(guān)主動集成ROS中間件,通過容器化提升中間件的復(fù)用價值,推動具身智能行業(yè)的數(shù)智化進(jìn)程;抖音電商通過邊緣智能,完善智能倉儲基礎(chǔ)建設(shè),構(gòu)建智能物流體系;上海某高校通過火山引擎邊緣智能,面向產(chǎn)學(xué)研場景孵化邊緣AI方案,開創(chuàng)校企合作新篇章。
未來,是終端智能與虛實(shí)體驗融合的時代,也是一個視頻交互時代。來自市場調(diào)研機(jī)構(gòu)的數(shù)據(jù)顯示,視頻是云業(yè)務(wù)中增長最快的工作負(fù)載之一,到2026年視頻在數(shù)據(jù)中心基礎(chǔ)設(shè)施中的占比將從10%增長到20%-25%。面對海量視頻資源的AI化處理需求和智能終端設(shè)備的訪問請求,火山引擎視頻云和邊緣云積累了自身的平臺經(jīng)驗,并將能力開放給行業(yè)與開發(fā)者,使之逐步成為大模型時代的重要基礎(chǔ)設(shè)施和技術(shù)底座。
而隨著AI能力應(yīng)用逐漸深入,在基礎(chǔ)設(shè)施能力之上,助力大模型在更多行業(yè)實(shí)現(xiàn)更好、更穩(wěn)、更快的落地成為新的時代命題;鹕揭嫔钊霕I(yè)務(wù)場景,正打造趨勢洞察與技術(shù)迭代的飛輪,與各行業(yè)企業(yè)客戶一起推動技術(shù)創(chuàng)造真正的價值。(本文首發(fā)于鈦媒體APP)
更多精彩內(nèi)容,關(guān)注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App