丰满人妻熟妇乱又伦精品软件,中文字幕精品亚洲四区

導(dǎo)讀：前不久，火山引擎利用3DGS技術(shù)把山西高平二郎廟和北京正乙祠兩座珍貴的歷史戲臺建筑“搬進(jìn)”了虛擬直播間，其應(yīng)用于抖音戲曲直播的虛實(shí)融合效果得到了京劇專業(yè)人士的贊許。讓技術(shù)有溫度，火山引擎這些年一直堅持用新技術(shù)做文化傳承。2024年被視為AI應(yīng)用元年，生成式AI迎來了爆發(fā)式增長。它不僅改變了音視頻的生產(chǎn)與交互方式，也開始快速滲透進(jìn)千行百業(yè)，但也在應(yīng)用落地進(jìn)程中對 ......

解題智實(shí)融合、音視頻交互新挑戰(zhàn)，AI 2.0時代怎么做？

前不久，火山引擎利用3DGS技術(shù)把山西高平二郎廟和北京正乙祠兩座珍貴的歷史戲臺建筑“搬進(jìn)”了虛擬直播間，其應(yīng)用于抖音戲曲直播的虛實(shí)融合效果得到了京劇專業(yè)人士的贊許。讓技術(shù)有溫度，火山引擎這些年一直堅持用新技術(shù)做文化傳承。

2024年被視為AI應(yīng)用元年，生成式AI迎來了爆發(fā)式增長。它不僅改變了音視頻的生產(chǎn)與交互方式，也開始快速滲透進(jìn)千行百業(yè)，但也在應(yīng)用落地進(jìn)程中對背后的音視頻技術(shù)底座、多媒體處理架構(gòu)、甚至芯片能力提出更高要求；而海量智能終端設(shè)備對大模型的調(diào)用需求，也對邊緣智能和云邊端協(xié)同發(fā)出更高挑戰(zhàn)。IDC報告認(rèn)為，生成式AI的IaaS市場去年實(shí)現(xiàn)爆發(fā)式增長，在AI與云有雙向積累的公司獲得了先發(fā)優(yōu)勢。

12月19日，智源研究院發(fā)布最新一期大模型綜合及專項評測結(jié)果。在覆蓋國內(nèi)外100余個開源和商業(yè)閉源大模型的評測中，豆包通用模型pro獲得大語言模型主觀評測最高分；在多模態(tài)模型評測中，豆包視覺理解模型排名視覺語言模型第二，成績僅次于GPT-4o；豆包文生圖模型、豆包視頻生成模型（即夢P2.0 pro）也分別在相應(yīng)測試中獲得全球第二。

在一眾“大廠”云+AI的布局中，火山引擎正以領(lǐng)先的技術(shù)創(chuàng)新切中用戶需求，在行業(yè)落地中找準(zhǔn)自身的生態(tài)位。為了進(jìn)一步拓寬行業(yè)覆蓋，火山引擎一年來在視頻云、邊緣云等領(lǐng)域做了諸多技術(shù)創(chuàng)新，并結(jié)合大模型與企業(yè)客戶一起驅(qū)動業(yè)務(wù)創(chuàng)新。

大模型深入音視頻

今年7月，抖音首部AIGC短劇《三星堆：未來啟示錄》上線，收獲了驚人的1.4億次播放量。這部有專業(yè)影視制作公司合作的劇作呈現(xiàn)出大片的既視感。它向業(yè)界交出一份答卷：生成式AI是創(chuàng)作背后的輔助工具，思想與情感的傳達(dá)仍是由人在主導(dǎo)，生成式AI將是審美加分項。從文生文、文生圖，到文生視頻，這些都已成為現(xiàn)實(shí)生產(chǎn)力。

眼下，生成式AI、多模態(tài)大模型、全景直播、3D生成等技術(shù)將數(shù)字視頻帶入AI視頻時代，從追求視頻的高清、實(shí)時，到追求更智能、更具交互性。由此也帶來兩個嚴(yán)峻的考驗：一是AIGC方式下的視頻數(shù)據(jù)量指數(shù)級增長對技術(shù)底座提出更高要求，比如視頻數(shù)據(jù)以20倍的速度在增長，使得背后的計算成本與效率問題凸顯；二是多模態(tài)媒體處理需求的增長對音視頻處理全鏈路提出了新的要求，涉及視頻的生產(chǎn)、交互與消費(fèi)各環(huán)節(jié)。

針對前者，火山引擎去年至今集中做了一些底層自研探索，比如在抖音里使用自研視頻轉(zhuǎn)碼芯片，可在同等視頻壓縮效率下獲得數(shù)十倍的成本節(jié)約；它還基于深度學(xué)習(xí)的圖像視頻壓縮技術(shù)，對自研的編解碼技術(shù)BVC進(jìn)行持續(xù)優(yōu)化；去年就已經(jīng)推出自研的多媒體處理開源框架BMF，今年升級后支撐了諸如豆包PixelDance等視頻生成大模型的上線與調(diào)優(yōu)。

針對后者，即位于上面的音視頻應(yīng)用，火山引擎視頻云主要是將豆包大模型及平臺AI能力去和音視頻的全鏈路處理進(jìn)行結(jié)合，使得內(nèi)容生產(chǎn)更智能、人與AI交互更擬人、虛實(shí)融合更沉浸。

設(shè)想一場演講直播如何同時滿足不同語種收看者的需求？畫面中還是演講者本人，他可以實(shí)時出現(xiàn)在中文、英語或其他語種的頻道中，供觀眾任意進(jìn)行多語言切換。技術(shù)針對演講內(nèi)容實(shí)時進(jìn)行跨語言翻譯輸出，再利用AI機(jī)器學(xué)習(xí)高度還原演講者的聲音特點(diǎn)和說話風(fēng)格，并讓后臺算法根據(jù)所輸出語言的不同對虛擬人口型進(jìn)行差異化匹配，是不是會立刻產(chǎn)生一種身臨其境的聆聽效果？這就是火山引擎已經(jīng)實(shí)施的“聲影同傳方案”，適用于同傳直播場景的內(nèi)容生產(chǎn)。

在本月18日舉行的火山引擎冬季FORCE原動力大會上，在中文直播的同時，同聲的英語頻道采用的就是跨語言同聲復(fù)刻方案。它以“跨語言直播”的方式，用AI“擬聲”出主論壇所有演講嘉賓的聲音特點(diǎn)和口型，實(shí)時呈現(xiàn)英語演講。

生產(chǎn)端的創(chuàng)新還體現(xiàn)在“多模態(tài)視頻理解與生成方案”。它整合了語音識別、文字識別、自然語言處理、視頻理解和視頻生成等多種模態(tài)模型的能力，可適用于體育賽事直播、教育、節(jié)目劇集等多種場景：比如對課程知識點(diǎn)的精準(zhǔn)提煉、短時間內(nèi)針對一部劇集制作批量化的引流短視頻、在一場球賽直播中快速制作進(jìn)球回放視頻等。

在音視頻交互端，對話式AI的技術(shù)完善讓大模型享有更寬廣的應(yīng)用場景，與硬件融合正成為重要趨勢。同樣在本次火山引擎冬季FORCE原動力大會上，火山引擎視頻云與lOT芯片領(lǐng)域的領(lǐng)先企業(yè)樂鑫科技正式聯(lián)合發(fā)布硬件對話式AI解決方案，提供了功能全面、即插即用的語音交互模組，旨在為硬件設(shè)備的智能化升級加速。目前，這一聯(lián)合解決方案已與Toycity、Folotoy、魂伴科技等多領(lǐng)域硬件品牌方展開合作，共同推動智能硬件行業(yè)的發(fā)展。比如，魂伴科技(Cyber Partner)在做的就是融合AI軟硬件技術(shù)賦予IP角色破次元能力，打造“有趣、有料、有AI”的產(chǎn)品，讓每個人都能擁有自己的賽博伙伴。

解題智實(shí)融合、音視頻交互新挑戰(zhàn)，AI 2.0時代怎么做？

而在音視頻消費(fèi)端，火山引擎聯(lián)合豆包大模型推出了3D生成模型Beaver3D。與傳統(tǒng)手工3D建模相比，3D生成模型在生產(chǎn)效率上有明顯優(yōu)勢，它針對多模態(tài)的圖、文建模，1分鐘就可以生成高保真高質(zhì)量的3D資產(chǎn)。該模型與火山引擎數(shù)字孿生平臺veOmniverse結(jié)合使用，可以高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作。

為提升3D數(shù)字形象在實(shí)際場景中的虛實(shí)無縫融合，火山引擎還推出了大場景重建方案，將3DGS渲染技術(shù)與自研大場景建模技術(shù)相結(jié)合。上述北京和山西的兩座古戲臺在這一技術(shù)加持下，在抖音戲曲直播的虛擬布景中重新散發(fā)出流光溢彩的視覺效果。而這兩座戲臺能成為直播間虛擬背景，本身也應(yīng)用了3D生成模型方案。

另外在傳統(tǒng)視頻交互中，觀眾不能自由選擇拍攝機(jī)位與觀看視角。但基于3DGS重建的6DoF直播方案，可以讓觀眾在播放端高自由度地觀看多角度的3D直播內(nèi)容，實(shí)現(xiàn)高質(zhì)量、低延遲、360度看直播。抖音VR直播目前已能讓普通用戶采用一部手機(jī)或者相機(jī)即可開播，并能在播放端體驗到一定范圍內(nèi)的多視角3D直播內(nèi)容。

讓邊緣AI應(yīng)用落地更容易

AI技術(shù)帶來了前所未有的極致交互體驗，同時也對硬件融合以及技術(shù)底座支撐提出了更高的要求，AI 2.0時代已經(jīng)到來。

現(xiàn)在，一部手機(jī)不僅是高清視頻、VR直播的生產(chǎn)工具，還可以成為AI智能體的一種“物理延伸”。隨著AI PC、AI手機(jī)、AI玩具以及智能眼鏡、耳機(jī)等可穿戴設(shè)備的普及，這些設(shè)備與大模型的結(jié)合衍生出豐富的端智能應(yīng)用場景。除了個人消費(fèi)場景之外，端智能在工業(yè)生產(chǎn)、能源、機(jī)器人等ToB基礎(chǔ)行業(yè)的應(yīng)用更早、也更深刻。邊緣智能的需求也逐步演變升級。

在與眾多客戶深入合作的過程中，火山引擎邊緣智能也洞察到新時代的技術(shù)挑戰(zhàn)。比如，端智能在落地過程的問題和挑戰(zhàn)可以總結(jié)歸納為四個“多”：“多平臺集成”、“多SDK適配”、“多重設(shè)備身份管理”、“多種模型協(xié)同”。

其次，從端側(cè)發(fā)起的AI服務(wù)調(diào)用越來越多，但整體上受限于功耗、成本等原因，端側(cè)設(shè)備的算力遠(yuǎn)落后于中心計算。這就迫使業(yè)界將模型“小型化”，但這意味著模型通用性的減弱。

面向AI 2.0時代，如何突破限制，加速大模型落地？火山引擎邊緣智能給出了自己的答案。

解題智實(shí)融合、音視頻交互新挑戰(zhàn)，AI 2.0時代怎么做？

首先，針對端智能面臨的四個“多”問題，推出了三個“一”的解決方案端側(cè) OneSDK、OneCredential 和 OneStop 一站式服務(wù)。具體來說，OneSDK，即端側(cè)僅需集成一個SDK，即可一站式解決在線升級（OTA）、日志記錄、遠(yuǎn)程登入、設(shè)備管理等設(shè)備運(yùn)維需求，以及設(shè)備密鑰、設(shè)備證書等設(shè)備安全需求，還能滿足多模型和多智能體調(diào)用的設(shè)備智能需求。同時，提供硬件抽象層（HAL）接口，以便在 RTOS、其他嵌入式操作系統(tǒng)，甚至是無操作系統(tǒng)的設(shè)備上輕松遷移SDK。OneCredential支持云上多平臺間的身份互認(rèn)和權(quán)限穿透，使得設(shè)備端可以共享一套密鑰和證書，在確保安全性的同時，降低了成本并提升了性能。OneStop是通過深度融合端云技術(shù)打造的一站式端智能體方案，能大幅降低端側(cè)智能體的開發(fā)與接入門檻。

在通過這一套OneSDK端智能一站式方案來統(tǒng)一端側(cè)標(biāo)準(zhǔn)之后，以智能決策器決策在本地完成推理，還是將推理請求智能路由至邊或云的算力中。對于推理請求需要轉(zhuǎn)發(fā)到設(shè)備之外的場景，火山引擎邊緣大模型網(wǎng)關(guān)提供了四大能力，幫助客戶加速云邊大腦的訪問：一是網(wǎng)關(guān)的適配性，提供與OpenAI完全一致的接口，并屏蔽接口差異，幫助開發(fā)者更容易在模型間遷移；二是海量的邊緣云節(jié)點(diǎn)，并通過流量調(diào)度，提供端側(cè)就近接入大模型；三是通過各類緩存、邊緣推理等方式進(jìn)行查詢加速；四是在穩(wěn)定性上，通過多模型廠商間的故障遷移以及錯誤重試，提升請求的魯棒性。

此外，產(chǎn)業(yè)未來的一個發(fā)展趨勢是，從基礎(chǔ)模型向多樣化智能體轉(zhuǎn)變，即“千模走向萬體”�；A(chǔ)模型的持續(xù)迭代推動了智能體的發(fā)展，同時市場正專注于特定領(lǐng)域智能體的開發(fā)，帶動了應(yīng)用、平臺和基礎(chǔ)設(shè)施的匹配發(fā)展。在這一進(jìn)程中，邊緣原生智能體將扮演關(guān)鍵角色通過理解設(shè)備能力，結(jié)合用戶的輸入進(jìn)而實(shí)現(xiàn)自主感知或操控設(shè)備，并在端-邊-云之間進(jìn)行靈活調(diào)度，甚至實(shí)現(xiàn)多智能體協(xié)同完成更為復(fù)雜的任務(wù)。

基于這一構(gòu)想，火山引擎邊緣智能聯(lián)動扣子，通過定制插件和工作流讓智能體具備感知、操作設(shè)備的能力，目前已在智能數(shù)字工廠、智慧園區(qū)落地。管理者只需通過設(shè)備，即可實(shí)時查詢工廠或園區(qū)情況、掌握各類數(shù)據(jù)，進(jìn)一步提高管理水平。

質(zhì)檢智能體也在解決傳統(tǒng)質(zhì)檢中無法反映中間過程質(zhì)量的難點(diǎn)。火山引擎邊緣智能利用多模態(tài)大模型，以工廠具體制定的SOP（標(biāo)準(zhǔn)化作業(yè)程序）為輸入，智能監(jiān)督整個工序過程是否符合規(guī)范，最終提高了質(zhì)檢的全面性和準(zhǔn)確性。

實(shí)現(xiàn)高智能水平的多智能體協(xié)同調(diào)度任務(wù)，還有賴于高效可靠的云邊端網(wǎng)絡(luò)通信。火山引擎利用分布在全球2500多個邊緣云節(jié)點(diǎn)，建設(shè)了全球分布式云網(wǎng)基礎(chǔ)設(shè)施，面向端-邊互聯(lián)、邊-邊互聯(lián)以及邊-云場景提供從1ms到40ms時延的廣域網(wǎng)絡(luò)接入，支持智能應(yīng)用就近上云。此外，它的分布式邊緣云異構(gòu)算力解決方案可以為用戶就近提供多形態(tài)異構(gòu)算力，具備小型化與輕量化的特點(diǎn)，支持算力、服務(wù)混合部署，集群功能按需調(diào)配，最大化利用資源。

與此同時，AI技術(shù)應(yīng)用發(fā)展雖快卻并不夠成熟，在傳統(tǒng)安全威脅之外，還面臨諸如幻覺攻擊、對抗性攻擊等新型安全攻擊和挑戰(zhàn)。尤其在智能體連接物理世界的過程中，這種威脅也將傳導(dǎo)至實(shí)體。

對此，火山引擎邊緣智能在傳統(tǒng)的安全防護(hù)措施，如 DDoS 防護(hù)、WAF 和頻次控制的基礎(chǔ)上，增添了針對 AI 2.0 時代的邊緣安全防護(hù)功能。具體來說，在輸入層對輸入的提示詞進(jìn)行安全性檢測，拒絕任何不安全或不合規(guī)的提示詞請求，同時，通過提示詞擾動，降低提示詞的安全風(fēng)險。另外，通過在系統(tǒng)提示詞中有針對地添加防御性的描述，增強(qiáng)大模型對提示詞攻擊的防范能力。在輸出層，對智能體的輸出結(jié)果進(jìn)行深入分析和檢測，以提高結(jié)果的安全性和合規(guī)性。

隨著大模型深入千行百業(yè)，“每個App都值得用大模型重做一遍”的豪言壯語響徹業(yè)內(nèi)。但在實(shí)際中，各行業(yè)的Know- How不是大模型平臺朝夕間就能掌握的。

針對特定領(lǐng)域的智能體開發(fā)是大模型落地的加速器，這一過程體現(xiàn)為AI生態(tài)的價值。在火山引擎邊緣智能研發(fā)負(fù)責(zé)人謝皓看來，“融入生態(tài)不僅是被集成，而是一種相向而行的互相集成。”

基于這一理念，最近一年，火山引擎邊緣智能已在不同領(lǐng)域推進(jìn)行業(yè)生態(tài)合作，幫助眾多企業(yè)加速落地大模型，助力業(yè)務(wù)增長。比如地瓜機(jī)器人通過集成邊緣大模型網(wǎng)關(guān)入口，支持開發(fā)者通過標(biāo)準(zhǔn)化的ROS接口調(diào)用大模型，同時大模型網(wǎng)關(guān)主動集成ROS中間件，通過容器化提升中間件的復(fù)用價值，推動具身智能行業(yè)的數(shù)智化進(jìn)程；抖音電商通過邊緣智能，完善智能倉儲基礎(chǔ)建設(shè)，構(gòu)建智能物流體系；上海某高校通過火山引擎邊緣智能，面向產(chǎn)學(xué)研場景孵化邊緣AI方案，開創(chuàng)校企合作新篇章。

未來，是終端智能與虛實(shí)體驗融合的時代，也是一個視頻交互時代。來自市場調(diào)研機(jī)構(gòu)的數(shù)據(jù)顯示，視頻是云業(yè)務(wù)中增長最快的工作負(fù)載之一，到2026年視頻在數(shù)據(jù)中心基礎(chǔ)設(shè)施中的占比將從10%增長到20%-25%。面對海量視頻資源的AI化處理需求和智能終端設(shè)備的訪問請求，火山引擎視頻云和邊緣云積累了自身的平臺經(jīng)驗，并將能力開放給行業(yè)與開發(fā)者，使之逐步成為大模型時代的重要基礎(chǔ)設(shè)施和技術(shù)底座。

而隨著AI能力應(yīng)用逐漸深入，在基礎(chǔ)設(shè)施能力之上，助力大模型在更多行業(yè)實(shí)現(xiàn)更好、更穩(wěn)、更快的落地成為新的時代命題�；鹕揭嫔钊霕I(yè)務(wù)場景，正打造趨勢洞察與技術(shù)迭代的飛輪，與各行業(yè)企業(yè)客戶一起推動技術(shù)創(chuàng)造真正的價值。（本文首發(fā)于鈦媒體APP）

更多精彩內(nèi)容，關(guān)注鈦媒體微信號（ID：taimeiti），或者下載鈦媒體App

解題智實(shí)融合、音視頻交互新挑戰(zhàn)，AI 2.0時代怎么做？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-25 19:55:31 瀏覽：173次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

解題智實(shí)融合、音視頻交互新挑戰(zhàn)，AI 2.0時代怎么做？ 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-25 19:55:31 瀏覽：173次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

解題智實(shí)融合、音視頻交互新挑戰(zhàn)，AI 2.0時代怎么做？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-25 19:55:31 瀏覽：173次