本期《晚點聊》,關(guān)注當(dāng)技術(shù)遇上藝術(shù),聊一聊計算機(jī)技術(shù)和正蓬勃發(fā)展的 AI 技術(shù),如何與 M&E,也就是 Media and Entertainment 媒體娛樂產(chǎn)業(yè)相互影響、相互塑造。
我們邀請了兩位嘉賓一起對談:一位是 NVIDIA 中國區(qū)高級技術(shù)市場經(jīng)理施澄秋(Searching),另一位是新片場董事長兼 CEO 尹興良(Ethan)。
他們站在技術(shù)塑造內(nèi)容這個鏈條的兩端:NVIDIA 是人工智能計算領(lǐng)導(dǎo)者,同時 NVIDIA 也會開發(fā)大量的軟件去幫整個生態(tài)更好的使用 GPU。NVIDIA 起家就是依靠計算機(jī)圖形技術(shù),最初就是用在游戲和影視行業(yè)。
成立于 2012 年的新片場,則是中國最大的高質(zhì)量短片和視頻素材分享平臺,并制作了大熱 IP 劇集《鬼吹燈》(《怒晴湘西》《精絕古城》《南海歸墟》等)系列。
內(nèi)容創(chuàng)作是人類文明最早的活動之一。在 AI 技術(shù)之前,這個行業(yè)已是一個有長鏈條的技術(shù)工業(yè)體系。本期節(jié)目中,我們回顧了在 AI 之前,計算機(jī)圖形等技術(shù)對內(nèi)容制作的影響與滲透,進(jìn)一步展開了生成式 AI 浪潮帶來的新變化。生成式 AI 的發(fā)展則將進(jìn)一步縮短從創(chuàng)意到表達(dá)的距離,讓更多人有表達(dá)自己的工具,未來還可能衍生出新的社區(qū)與平臺,面對影視和內(nèi)容創(chuàng)作這個萬億級的全球大市場,AI 帶來的新一輪變化才剛開始。
AI 之前,影視內(nèi)容工業(yè)已高度技術(shù)化
《晚點聊》:首先想請 Ethan 聊聊,當(dāng)前國內(nèi)劇集的制作流程大致,以及哪些環(huán)節(jié)用到的技術(shù)比較多。
尹興良:出品內(nèi)容的流程是:首先進(jìn)行立項會議,確定項目方向,通過審查后正式立項;隨后確定劇本,以及導(dǎo)演、主演等主創(chuàng)人員,并開始建組;實際拍攝完成后,進(jìn)行后期剪輯、特效制作、特效回插,調(diào)色和聲音處理,直至成片。最后,成片需通過審查,并確定上線時間,最終與觀眾見面。
國內(nèi)劇集制作的各個環(huán)節(jié)都在嘗試新技術(shù),以前期分鏡設(shè)計為例,傳統(tǒng)方式是純用綠幕,現(xiàn)在則會用到 LED 屏幕,在拍攝過程中直接把后景加進(jìn)去,后期制作的流程也同樣有技術(shù)輔助,而采用這些技術(shù)的目的則是降本增效。
《晚點聊》:您剛才說拍攝過程中用 LED,是不是有 NVIDIA 的技術(shù),或者說相關(guān)的產(chǎn)品支持?
施澄秋:綠幕技術(shù)已使用近 20 年。但十幾年前,LED 拍攝成本高,涉及占地、運營、維護(hù)和電費等。從 17 年開始,LED 成本下降,并逐漸開始流行。無論是 LED 還是綠幕,背景都依賴于視覺運算效果渲染,這是 NVIDIA 的強(qiáng)項。
例如,《獅子王》的 LED 屏幕背后虛擬場景由 CG 生成,拍攝時捕捉,實現(xiàn)“所見即所得”的效果。又如,拍攝珠寶奢侈品廣告時,綠幕拍攝難以達(dá)到逼真的光影互動,無法襯托產(chǎn)品的高級感。而 LED 屏可以避免這些問題。
隨著 CG 技術(shù)的發(fā)展,NVIDIA 的 GPU 渲染能力大幅提升,F(xiàn)在,結(jié)合 NVIDIA 的軟件技術(shù),綠幕拍攝也可以實現(xiàn)實時光線追蹤,多人協(xié)作,提高互動性和效率。無論是 LED 還是綠幕,都能支持媒體娛樂產(chǎn)業(yè)的需求。萬變不離其宗,核心都是 CG 渲染。
《晚點聊》:我想問一下 Ethan,像《鬼吹燈》這個系列,對特效的要求比較高。在整個鏈條里面,技術(shù)投入占到你們的制片成本的多少?
尹興良:我們做的是《鬼吹燈》網(wǎng)絡(luò)電影,藝人的預(yù)算不高,大部分的預(yù)算投入在特效中。以《鬼吹燈之南海歸墟》為例,全部在棚內(nèi)拍攝。跟海相關(guān)的鏡頭都是特效,占到了一半以上的時長。
《晚點聊》:從個人經(jīng)歷來講,入行開始到現(xiàn)在,技術(shù)在中國的影視內(nèi)容,包括新聞這些制作行業(yè)里,大概是一個怎樣慢慢滲透的過程?
尹興良:我 2012 年開始創(chuàng)業(yè)做新片場,初衷是解決自己作品的存儲問題。我認(rèn)為技術(shù)對于創(chuàng)作體系的顛覆非常大。
從拍攝這端來講。大學(xué)時拍片子,用笨重的設(shè)備,拍攝和導(dǎo)出過程非常耗時。到了 12、13 年,單反相機(jī)成為主流,現(xiàn)在很多人用手機(jī)拍攝。
關(guān)于制作端,雖然 Adobe 和蘋果的產(chǎn)品仍是主流,但制作流程本身已被顛覆,比如內(nèi)容導(dǎo)入時間更短。計算機(jī)性能的突飛猛進(jìn)跟 NVIDIA 的貢獻(xiàn)密不可分。未來,AI 技術(shù)將進(jìn)一步簡化創(chuàng)作流程。社交媒體讓傳播變得更平等,而 AI 將使創(chuàng)作能力不再局限于少數(shù)人或機(jī)構(gòu)。
施澄秋:我比 Ethan 年長,90 年代讀廣告專業(yè)。Ethan 之前是磁帶導(dǎo)入,我們是 DV,甚至用 beta 設(shè)備,從 1394 接口 1:1 地導(dǎo)進(jìn)電腦,還沒有高速的網(wǎng)絡(luò)。那時電腦非常昂貴,沒機(jī)會用電腦做后期,哪怕做平面的內(nèi)容都很奢侈,基本只學(xué)紙上談兵的理論。當(dāng)時也沒有虛擬演播室的概念,哪怕是疊加實時字幕,都是成本高昂的商業(yè)行為,花幾十萬甚至上百萬做實時字幕機(jī)系統(tǒng),只有頂級工作室和大公司才能負(fù)擔(dān)得起。
到了今天,創(chuàng)作者幾乎不再受到成本、專業(yè)背景的限制。以前做后期需要學(xué)習(xí) Premiere,今天拿手機(jī)戳戳屏幕就可以。甚至手機(jī)可以不具備強(qiáng)大的處理能力,云端的 GPU 資源可以調(diào)用服務(wù)器上的渲染能力,幫助用戶完成制作。以前只能靠專業(yè)人員完成的工作,現(xiàn)在通過簡單的指令就能讓 AI 完成。NVIDIA 也在順應(yīng)潮流,產(chǎn)品從視覺計算,拓展到 AI 計算領(lǐng)域,為更多個人創(chuàng)作者創(chuàng)造便利,帶動 UGC 發(fā)展。
《晚點聊》:可以介紹一下 NVIDIA 在中國影視行業(yè)是如何逐步發(fā)展的嗎?個人創(chuàng)作者在使用這些工具時,這個鏈條又是怎樣的?
施澄秋:早期,NVIDIA 在中國影視傳媒行業(yè)籍籍無名,沒有分公司、技術(shù)支持和售后。通過合作伙伴,或者采用了我們技術(shù)的系統(tǒng)整合商,NVIDIA 才逐步進(jìn)入市場。
90 年代做世界杯時,主持人要提溜著幾個虛擬的小人講排兵布陣,這是早期的虛擬演播室,是比較簡單的后臺渲染。天氣預(yù)報的直播間,主持人指點的氣象云圖,就是某種意義上的綠幕,渲染都是用 GPU 來完成。今天的渲染技術(shù)與過去相比,已不可同日而語。
如今我們可以做到實時光線的追蹤了,而以前這需要在渲染農(nóng)場中進(jìn)行離線渲染,耗時幾十上百小時完成幾十秒的畫面。皮克斯的電影制作周期從 18 到 24 個月縮短到幾個月,正是因為渲染時間和成本大幅減少。
通過技術(shù)進(jìn)步,NVIDIA 不僅幫助大型機(jī)構(gòu),也在幫助個人創(chuàng)作者參與影視制作。
移動互聯(lián)網(wǎng)降低了分享的門檻,生成式 AI 將降低創(chuàng)作的門檻
《晚點聊》:你們會比較在意這個熱潮里的什么東西?
尹興良:作為產(chǎn)業(yè)公司,首要關(guān)注生成式 AI 在現(xiàn)有工作流中的應(yīng)用。我們最早關(guān)注的是 Diffusion,也就是文生圖。Midjourney 爆火之前,美國有一款叫 Dream 的 APP 已經(jīng)流行。用戶輸入一段文字,Dream 生成特定風(fēng)格的藝術(shù)畫,這就是 Diffusion 技術(shù)。用戶將在 Dream 上生成的內(nèi)容分享至我們的平臺,讓我們意識到了生成式 AI 的潛力。后來的 Midjourney 對我們這個行業(yè)的影響就更大了,因為它真的可以進(jìn)入生產(chǎn)環(huán)節(jié),比如生成宣傳海報、制作分鏡頭腳本,可以達(dá)到使用水準(zhǔn)。
與傳統(tǒng)影視公司不同,網(wǎng)絡(luò)分發(fā)需要大量海報。例如,傳統(tǒng)線下電影只需要幾張海報,而網(wǎng)絡(luò)內(nèi)容為了提高曝光,需要幾千張去測試 ROI。在這個環(huán)節(jié)里,Midjourney 替代了美工,可以批量生成信息流圖片,提高營銷效果。
雖然 Midjourney 在生成某些細(xì)節(jié)(如手部)時會出現(xiàn)“幻覺”,但多數(shù)應(yīng)用場景中,這些瑕疵是可以接受的。
《晚點聊》:從 NVIDIA 技術(shù)供給方的角度看,生成式 AI 可能對媒體娛樂產(chǎn)業(yè)有什么影響?你比較在意的是什么?
施澄秋:NVIDIA 在這個行業(yè)里面技術(shù)走得比較前沿,所以有很多應(yīng)用尚未落地,或者沒有大規(guī)模應(yīng)用。舉個例子,大家可能知道我們有一個分工協(xié)作的在線平臺,叫 Omniverse。
首先,它是一個多人實時在線分工協(xié)作的數(shù)字資產(chǎn)管理制作的工作流平臺,采用了皮克斯開發(fā)的通用場景描述(USD)技術(shù)。這一平臺,能夠連接各類主流的 SV 數(shù)字資源,用戶可以實現(xiàn)云原生的實時協(xié)作,進(jìn)行所見即所得的實時編輯。
例如,在拍攝時使用綠幕,過去綠幕效果需在后期添加,而現(xiàn)在借助 Omniverse 平臺,導(dǎo)演可以在監(jiān)視器上實時看到完成后的場景與演員表演的結(jié)合效果。這得益于 USD 技術(shù),數(shù)字資產(chǎn)能夠?qū)崟r疊加,幫助導(dǎo)演即時發(fā)現(xiàn)動作不匹配、穿幫等問題,并進(jìn)行實時調(diào)整和特效處理,提升拍攝效率和質(zhì)量。
還有我們繞不開的降本增效問題。以往拍攝大場景如海上日出或雪景,需實際前往地點,受天氣等因素影響大,成本高昂,F(xiàn)在有了 Omniverse 這個平臺,輸入簡單指令就可以生成高質(zhì)量的圖像或視頻。
平臺還能創(chuàng)建獨特且多樣化的數(shù)字角色,支持真人驅(qū)動的數(shù)字人與虛擬環(huán)境互動,簡化了動作捕捉過程,減少了所需的傳感器數(shù)量。
Omniverse 里面有很多組件,比如用于創(chuàng)建數(shù)字人的 Machinima 和云原生數(shù)字人引擎 ACE。其中,Audio2Face 技術(shù)可通過分析語音語調(diào)和情緒,自動匹配至數(shù)字人面部,實現(xiàn)逼真的表情。這些技術(shù)已在 Omniverse 中商用,受到廣泛歡迎。國內(nèi)也有許多合作伙伴進(jìn)行了二次開發(fā),取得了顯著成果。
《晚點聊》:在 NVIDIA 落地的技術(shù)應(yīng)用中,還有別的例子可以講講嗎?
施澄秋:大家都知道,SIGGRAPH 是計算機(jī)圖形學(xué)最頂尖的業(yè)界會議,NVIDIA 每年都帶著很多論文參加,幾乎每年都能拿到最佳論文。其實這個是業(yè)界的一個風(fēng)向標(biāo),這些論文看似是非常早期的研究的方向,幾年之后它都會商業(yè)成品落地。
比如今天我們提到的 stable diffusion、AI 文生圖、圖生圖,都來源于生成式對抗網(wǎng)絡(luò)(GAN) 。八年前就已經(jīng)有這個概念了;再比如,NVIDIA 兩三年前發(fā)布的基于 NeRF 技術(shù)的應(yīng)用,是基于神經(jīng)圖形學(xué)的一個研究方向,今天已經(jīng)可以看到各式各樣的落地成果。通過這個技術(shù),用戶拍攝幾張場景照片,就快速生成高質(zhì)量的 3D 模型。在媒體和娛樂產(chǎn)業(yè)中,NeRF 可以用于電影制作中的場景采集和重建,減少實地拍攝的需求,這是一個很有吸引力的、降本增效的方式。
其實,我們?nèi)祟惷恳淮慰萍嫉木薮筮M(jìn)步都來自我們的“懶”或者“摳”,且并非貶義。這些人類與生俱來的特性,驅(qū)使我們研發(fā)新技術(shù),以更輕松的方式提升生產(chǎn)力,比如發(fā)明機(jī)械代步工具;節(jié)約也很正常,遠(yuǎn)古時期為了應(yīng)對天災(zāi)人禍,我們需要儲備物資,后來發(fā)展為存錢,即成本控制,今天的說法是“降本增效”。
在媒體娛樂產(chǎn)業(yè),過去投資充足,現(xiàn)在大家更希望用同樣的成本制作更高質(zhì)量的作品,或者增加產(chǎn)量,小成本制作也希望有高質(zhì)量的后期和特效。因此,我們利用惰性和節(jié)約的驅(qū)動力,不斷拓展更高效的技術(shù),讓 GPU 和 AI 來幫助創(chuàng)作者們節(jié)約每一幀、每一個場景的成本。
《晚點聊》:2021 年 NVIDIA 的 GTC 大會上,黃仁勛穿著皮衣從廚房里端出一個 GPU 的環(huán)節(jié)引起了轟動,因為部分畫面是數(shù)字人。是用的 Omniverse 的技術(shù)嗎?
施澄秋:是 Omniverse 里面的 ACE 這個技術(shù)。ACE 就是 Avatar Cloud Engine,基于云原生的數(shù)字人引擎。這個是 Omniverse 里重要的組件。
我們掃描了黃仁勛先生,生成他的 1:1 數(shù)字孿生模型;通過 Audio2Face 技術(shù),將講話內(nèi)容實時映射到數(shù)字人的臉上,實現(xiàn)表情的匹配。背景則使用虛擬拍攝技術(shù),將 3D 背景與數(shù)字人疊加在一起。
《晚點聊》:從 ACE 到 NeRF,ACE 的 AI 程度較低,因為需要完整的掃描。而 NeRF 只需幾張照片就能生成 3D 模型,AI 程度更高,成本更低,對嗎?
施澄秋:這個就是所謂的 2D 生 3D 和真正的 3D 掃描、3D 建模的不同,實現(xiàn)的方式不太一樣,當(dāng)然成本也不同。今天無論是 CG 也好,電腦的 AI 也好,其實是一個百家爭鳴、百花齊放的場景。我們說今天是人工智能發(fā)展的原點,是新紀(jì)元的突破點,我們也樂意于見到這個市場蓬勃發(fā)展,畢竟 NVIDIA 做 GPU,是一個賣“鏟子”的公司,大家把這個鏟子拿出來,可以各顯神通。
《晚點聊》:國內(nèi)今年也出了很多這種產(chǎn)品,像生數(shù)的,字節(jié)最近也出了,快手的 Kling 可靈,還有 MiniMax 的海螺,這些你們有試嗎?還有愛詩的 pixverse。
尹興良:今年國內(nèi)很多視頻生成的產(chǎn)品,比如生數(shù)的 Vidu、快手的 Kling、MiniMax 的海螺、愛詩的 pixverse、字節(jié)的即夢 AI 等,我們都試過。但產(chǎn)業(yè)里需要解決的問題很多,比如可控性,也就是抽卡的概率和包括渲染速度。產(chǎn)品要達(dá)到產(chǎn)業(yè)級別,時間成本和金錢成本必須低于傳統(tǒng)方式,還得是數(shù)量級別的降低。
《晚點聊》:國內(nèi)的公司會來主動接洽合作嗎?
尹興良:是的。我們平臺上視頻創(chuàng)作者的客戶基本上都是我們的用戶。這些公司希望通過平臺把產(chǎn)品推向產(chǎn)業(yè)從業(yè)者。我們還探討共建模型,做素材訓(xùn)練、模型訓(xùn)練等合作。
《晚點聊》:從 Searching 你的角度看,AI 熱潮之后,有哪些下游的 ISV(獨立軟件供應(yīng)商)發(fā)展得比較好,或者有新的成長?
施澄秋: Ethan 講的沒錯,大家對錯誤的容忍度低,因此都非常謹(jǐn)慎。目前,圖片生成領(lǐng)域,如 Midjourney 和 Stable Diffusion 已經(jīng)商業(yè)化成熟,但像 Sora 這樣的新技術(shù)的商用前景尚不確定,要等產(chǎn)業(yè)鏈條發(fā)展成熟。
下游 ISV 中,利用 GPU 或算力最常見的應(yīng)用是渲染器。國內(nèi)的 D5 渲染器做得非常好,已經(jīng)與大部分主流 ISV 打通,被廣泛應(yīng)用于個人和專業(yè)用戶。
《晚點聊》:渲染器就是一個軟件嗎?
施澄秋:舉個簡單的例子,假設(shè)我們在錄制一段視頻,背景比較雜亂。以前,如果想把背景去掉,只保留人物,需要使用 Photoshop 等軟件,一幀一幀地用鼠標(biāo)畫線,把人物摳出來。這個過程非常耗時,需要一個熟練使用這些軟件的人,確保每一幀中的人物都被正確摳出。
現(xiàn)在,有了 GPU 算力和人工智能的渲染器,用戶只需在人物臉上輕輕一點,渲染器就能自動識別并摳出人物,后續(xù)幀中的人物也會自動被摳出。前端設(shè)備可以非常輕便,如手機(jī)或平板,因為實際的處理工作是由后臺的 GPU 完成的。這種模式類似于 SaaS(軟件即服務(wù))或 PaaS(平臺即服務(wù)),后臺平臺(如 NVIDIA Omniverse)負(fù)責(zé)復(fù)雜的計算任務(wù),前端設(shè)備只需要一個輕量級的界面。這樣一來,個人創(chuàng)作者、UP 主、YouTuber 等用戶無需專業(yè)知識,用輕量設(shè)備也能輕松完成高質(zhì)量的視頻編輯任務(wù)。
NVIDIA 的 Omniverse 平臺,正是為影視傳媒行業(yè)提供的專業(yè)生產(chǎn)力工具,專門執(zhí)行這些任務(wù)。
《晚點聊》:視頻會議的軟件,比如說 zoom 或者騰訊會議都可以選背景,是這個技術(shù)嗎?
施澄秋:NVIDIA 也有一個專門的軟件叫 Maxine ,是一個我們的 SDK(軟件開發(fā)工具包)。舉個例子,我跟你講話時眼神會飄,因為我一會兒看手機(jī),一會兒看平板,一會兒看話題要點,這對參會者來說體驗不好。但用 NVIDIA 的技術(shù),可以保持我的眼神聚焦,無論我眼睛看哪兒,你都會感覺我在直視你,眼神一點也不飄。
還有一個重要應(yīng)用,體現(xiàn)在節(jié)約流量方面,可以提高視頻質(zhì)量和會議容量。我們今天做視頻軟件和視頻會議很耗流量。雖然現(xiàn)在大家都用 5G,但在網(wǎng)絡(luò)不好的情況下,比如野外考察、實時開荒或無人機(jī)拍攝等場景,特別是在直播應(yīng)用中,依然會遇到問題。
比如在山火現(xiàn)場做直播連線,NVIDIA 提出了一種高效方案:首先為節(jié)目主持人創(chuàng)建高精度的數(shù)字人模型,主持人可以站在山火現(xiàn)場,現(xiàn)場通過衛(wèi)星車與觀眾連線;同時,無人機(jī)航拍捕捉的山火全景作為 B-roll。最終,用生成式 AI 的方式疊加起來,生成高質(zhì)量的直播內(nèi)容。
這么大的數(shù)據(jù)傳輸量,對于現(xiàn)場的網(wǎng)絡(luò)條件是有挑戰(zhàn)的。NVIDIA 提出的解決方案是:前端只傳輸數(shù)字人的面部表情坐標(biāo),如嘴部和臉部的幾個關(guān)鍵點。這些坐標(biāo)數(shù)據(jù)量很小,對帶寬要求低。坐標(biāo)數(shù)據(jù)傳送到后端的云服務(wù)器上,利用云服務(wù)器的強(qiáng)大算力和網(wǎng)絡(luò)條件,生成逼真的數(shù)字人,實現(xiàn)高質(zhì)量的直播效果。
回到我們視頻會議的場景,我們每次 GTC 視頻會議,在線的可能是幾百個人、甚至上千人的視頻直播會議。全球的媒體、分析師、專家,包括我們的高層都在一個視頻會議的直播房間里面,如果使用 NVIDIA 一些相關(guān)的 SDK 和一些中間件,識別并傳送的只是你畫面的一些坐標(biāo)和你的語音,然后自動投射到你的面部上,觀看側(cè)用戶的感官是非常好的,同時又非常節(jié)約帶寬。
這樣的技術(shù),能夠在同樣的成本和同樣的網(wǎng)絡(luò)開銷下,實現(xiàn)更多的容量的接入,并且已經(jīng)在商用了。
《晚點聊》:NVIDIA 的員工數(shù)量并不算多,是如何敏感地獲取市場信息并決定研發(fā)方向的?
施澄秋:NVIDIA 與眾多 ISV(獨立軟件供應(yīng)商)及商用生產(chǎn)力工具開發(fā)者保持著緊密合作。另外,我們內(nèi)部設(shè)有開發(fā)者關(guān)系和開發(fā)者技術(shù)兩個團(tuán)隊,他們不直接銷售產(chǎn)品,而是構(gòu)建橋梁,讓所有的開發(fā)者知道 NVIDIA 開發(fā)了什么產(chǎn)品,有什么技術(shù)可以讓他們能夠提升效率。同時又讓我們內(nèi)部的研發(fā)人員和工程師知道,所有的開發(fā)人員他需要什么樣的產(chǎn)品,需要什么樣軟硬件的堆疊,需要什么樣的技術(shù),可以幫助我們實時獲得市場上最敏銳的前端用戶需求和資訊。這個橋梁讓我們可以保持我們產(chǎn)品的領(lǐng)先力,保持我們對業(yè)界的敏感度。
AI 不能改變的:“內(nèi)心的想法是一切的根源”
《晚點聊》:每一次新技術(shù)來臨,都會討論技術(shù)與創(chuàng)作的關(guān)系。生成式 AI 產(chǎn)生之后,大家也會去想它會怎么改變創(chuàng)作。有一種觀點是覺得 AI 可能只能生成比較平庸的東西。Ethan 怎么看?
尹興良:AI 的魅力在于降低創(chuàng)作門檻,激發(fā)普通人的創(chuàng)作能力。過去,創(chuàng)作機(jī)會主要集中在電視臺,我們這個時代,則轉(zhuǎn)移到了博主和網(wǎng)絡(luò)電影導(dǎo)演等非傳統(tǒng)電影行業(yè)的人士。隨著新技術(shù)的出現(xiàn),他們有了拍長片的機(jī)會,創(chuàng)造力就涌現(xiàn)出來。
《晚點聊》:這個現(xiàn)象在 AI 出現(xiàn)之前也在發(fā)生,對不對?比如肖央、大鵬這樣的短片創(chuàng)作者,現(xiàn)在做大電影票房也不錯。
尹興良:是的。新片場創(chuàng)業(yè)這么多年,我們就看到了我們平臺上很多過去拍短片的創(chuàng)作者,都一步一步走上大銀幕。拍了幾十億票房的影片,現(xiàn)在我們這個社區(qū)領(lǐng)先創(chuàng)作者已經(jīng)有三個金像獎,兩個金馬獎了。我覺得 AI 在未來會加速提升很多人的創(chuàng)作能力。
施澄秋:過去很多專業(yè)的場景和畫面,高度依賴專業(yè)技術(shù)人員,而且當(dāng)時的 AI 生成內(nèi)容非常粗糙。隨著 AI 技術(shù)的迭代和發(fā)展,電腦生成的內(nèi)容變得越來越逼真,個人創(chuàng)作者夠以較低的成本和較快的速度將創(chuàng)意變?yōu)楝F(xiàn)實,準(zhǔn)確表達(dá)內(nèi)心的想法,創(chuàng)造出實實在在、拿得出手的作品。
NVIDIA 在過去做了很多類似的引導(dǎo)工作,例如在中國通過 Omniverse 平臺舉辦創(chuàng)作者競賽。創(chuàng)作者在 Omniverse 平臺就可以渲染出很復(fù)雜的光影效果,同樣對設(shè)備的要求極低,甚至一名在校學(xué)生用個人消費級的筆記本電腦就可以實現(xiàn)。在這個比賽里,可以看到很多個人創(chuàng)作者美輪美奐的作品。
《晚點聊》:聊到這個技術(shù)對創(chuàng)作的一些塑造,大家也會去討論風(fēng)險。比如行業(yè)里有些工作可能變成機(jī)器來做,這是最直接的。那再往下, AI 元素加入后,藝術(shù)創(chuàng)作的性質(zhì)也會變化,還有創(chuàng)意歸屬的問題等等。
NVIDIA 是行業(yè)里前沿的公司,你們可能也做工作,去幫助升級媒體娛樂產(chǎn)業(yè)的同時,更好地去發(fā)揮 AI 技術(shù)好的一面?梢苑窒硪恍┳龇▎?
施澄秋:所有的數(shù)字資產(chǎn)都要設(shè)置數(shù)字圍欄,保證信息安全。比如增強(qiáng)檢索生成(RAG) 這個部分或大型模型,我們會圈一個數(shù)字圍欄來做數(shù)字防護(hù),所有的人工智能創(chuàng)作要在這個圍欄范圍內(nèi),防止它們超出預(yù)設(shè)界限,如違反傳統(tǒng)道德觀念或泄露敏感信息等。
我們要讓 AI 在我們所需的特定領(lǐng)域內(nèi)進(jìn)行創(chuàng)作。例如,如果今天進(jìn)行的是中國元素、國風(fēng)的藝術(shù)創(chuàng)作,我們不希望 AI 創(chuàng)作受到西方美學(xué)或西方作品的影響。這樣,我們就會為 AI 設(shè)定一個數(shù)字圍欄。在整個創(chuàng)作流程中,無論是前期的數(shù)據(jù)喂料,還是后期的提示詞輸入,都是非常講究的。
目前 AI 已經(jīng)發(fā)展成為一個非常系統(tǒng)化和科學(xué)化的工程。以前在大學(xué)里,大家可能學(xué)的是電氣工程(EE)或者計算機(jī)科學(xué)(CS),F(xiàn)在許多大學(xué)已經(jīng)開始設(shè)立專門的“Prompt Engineering”專業(yè),即提示工程。這意味著,你提供的提示質(zhì)量直接影響 AI 生成的內(nèi)容質(zhì)量,這是一個非常科學(xué)化和系統(tǒng)化的過程。
AI 的發(fā)展催生了許多新興行業(yè)和新的工作崗位,這些崗位需要人類來更好地監(jiān)督和管理 AI。實際上,科技的發(fā)展與人類的進(jìn)步是相輔相成、缺一不可的。
《晚點聊》:普通人如果有這種創(chuàng)作的想法,可以從什么方面去入手,你們有什么建議?
尹興良:創(chuàng)作熱情最重要。我們社區(qū)的 slogan 是“用作品打動世界”,它激勵了很多創(chuàng)作人。很多用戶給我們反饋,就是因為這句話加入這個行業(yè)的。
第二件事情就是得多看。AI 工具幫我們降低了創(chuàng)作門檻。但更核心的還是你自己的經(jīng)歷、見識、認(rèn)知組成了你內(nèi)心深處想法的本源。在這個基礎(chǔ)上會有 AI 工具去幫你實現(xiàn)想法。但首先要心懷熱情,有想表達(dá)的東西。
施澄秋: 我覺得 Ethan 說得非常好,我們?nèi)祟惖那楦惺?AI 替換不了的。AI 可能能打動我們,但是 AI 不會被打動。很多情況下,我們自己的需求、真正打動我們內(nèi)心的東西,才能夠?qū)崒嵲谠谕苿舆@個行業(yè)的變革和科技的發(fā)展。
在過去,我們的需求可能受制于科技和生產(chǎn)力未能實現(xiàn),但是當(dāng)這些需求被推向前臺的時候,科技公司也都會看到這些需求。于是大家會朝著這些需求去研發(fā),去投資。最后大家齊心協(xié)力把這個行業(yè)做得更好、更強(qiáng)大。
對于個人用戶而言,我覺得首先就像 Ethan 講的,你內(nèi)心要有自己的想法和追求。第二,希望中國的開發(fā)者和創(chuàng)業(yè)者能夠把你們的需求表達(dá)出來,讓所有的科技公司都聽得到你的需求,大家一起為這個行業(yè)共同營造一個更美好的未來。
歡迎前往小宇宙APP搜索“晚點聊”,選擇第89集,即可收聽本期完整版播客。
登場人物:
施澄秋 Searching,NVIDIA 中國區(qū)高級技術(shù)市場經(jīng)理
尹興良 Ethan,新片場的董事長兼 CEO
程曼祺,《晚點 LatePost》科技報道負(fù)責(zé)人(即刻:曼祺_火柴Q)
附錄:播客里提及的一些技術(shù)與產(chǎn)品術(shù)語
M&E:Media and Entertainment 的縮寫,指的是媒體與娛樂產(chǎn)業(yè)。
特效回插:在影視劇的生產(chǎn)鏈條中,特效鏡頭常常由協(xié)力公司單獨制作,后期制作階段會將這些特效鏡頭插入到影片中相應(yīng)的位置。
CG:計算機(jī)圖形學(xué)(Computer Graphics,簡稱CG)是一種使用數(shù)學(xué)算法將二維或三維圖形轉(zhuǎn)化為計算機(jī)顯示器的柵格形式的科學(xué)。
Diffusion模型:這是一種生成式模型,主要用于生成高質(zhì)量的圖像、文本和其他類型的數(shù)據(jù)。
B-roll:是指在影視制作中用來補(bǔ)充主鏡頭(A-roll)的輔助視頻或圖像素材。通常,A-roll包含主要的敘事內(nèi)容,比如采訪、對話等直接涉及故事主線的畫面。而B-roll則是用來豐富視覺效果、提供背景信息或增強(qiáng)情感氛圍的額外鏡頭。
NVIDIA Omniverse :是一個提供 API、SDK 和服務(wù)的平臺。借助此平臺,開發(fā)者可以輕松地將通用場景描述 (OpenUSD) 和 RTX 渲染技術(shù)集成到現(xiàn)有軟件工具和仿真工作流中,以構(gòu)建 AI 系統(tǒng)。
NVIDIA ACE:即 Avatar Cloud Engine,是一套可幫助開發(fā)者利用生成式 AI 創(chuàng)建栩栩如生的虛擬數(shù)字人物的技術(shù)。
SIGGRAPH:是由ACM SIGGRAPH(美國計算機(jī)協(xié)會計算機(jī)圖形專業(yè)組)組織的計算機(jī)圖形學(xué)頂級年度會議。
RAG:即檢索增強(qiáng)生成(Retrieval-augmented Generation),簡稱RAG。檢索增強(qiáng)生成是一種使用從外部來源獲取的事實,來提高生成式 AI 模型準(zhǔn)確性和可靠性的技術(shù)。