中文字幕一区二区三区,青草久久精品亚洲综合专区

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-06-20 08:38:09 瀏覽：6606次

導(dǎo)讀：夢(mèng)晨西風(fēng) 發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI CVPR 2024最佳論文獎(jiǎng)新鮮出爐，生成式AI成最大贏家！一篇是Rich Human Feedback for Text-to-Image Generation，受大模型中的RLHF技術(shù)啟發(fā)，團(tuán)隊(duì)用人類反饋來(lái)改進(jìn)Stable Diffusion等文生圖模型。這項(xiàng)研究來(lái)...

夢(mèng)晨西風(fēng) 發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

CVPR 2024最佳論文獎(jiǎng)新鮮出爐，生成式AI成最大贏家！

一篇是Rich Human Feedback for Text-to-Image Generation，受大模型中的RLHF技術(shù)啟發(fā)，團(tuán)隊(duì)用人類反饋來(lái)改進(jìn)Stable Diffusion等文生圖模型。

這項(xiàng)研究來(lái)自UCSD、谷歌等，共同一作華南農(nóng)業(yè)大學(xué)校友Youwei Liang、清華校友Junfeng He、武大、港中文校友Gang Li。

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

另一篇Generative Image Dynamics更偏理論一些，提出了一種基于圖像空間先驗(yàn)的場(chǎng)景運(yùn)動(dòng)建模方法，可用于通過(guò)靜態(tài)圖像生成無(wú)縫循環(huán)視頻，還能實(shí)現(xiàn)與圖像中對(duì)象的交互。

這項(xiàng)研究來(lái)自谷歌，一作谷歌DeepMind研究員Zhengqi Li（李正奇）。

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

最佳學(xué)生論文獎(jiǎng)也一同公布。

一篇BioCLIP: A Vision Foundation Model for the Tree of Life，構(gòu)建了大規(guī)模生物學(xué)圖像數(shù)據(jù)集，并提出BioCLIP基礎(chǔ)模型來(lái)學(xué)習(xí)生物分類的層次表示。

來(lái)自俄亥俄州立大學(xué)等，共同一作Samuel Stevens，Jiaman Wu。

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

另一篇是3D高斯?jié)姙R領(lǐng)域的Mip-Splatting: Alias-free 3D Gaussian Splatting，通過(guò)引入3D平滑濾波器、用2D Mip濾波器替換2D膨脹濾波器來(lái)消除偽影和混疊等問(wèn)題。

來(lái)自圖賓根大學(xué)、上�？萍即髮W(xué)等，三位一作Zehao Yu、Anpei Chen（陳安沛）、Binbin Huang皆為上海科技大學(xué)在讀或畢業(yè)生。

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

今年CVPR的參與規(guī)模和受關(guān)注度都達(dá)到了新高度，在頒獎(jiǎng)活動(dòng)結(jié)束后不久，官網(wǎng)就被擠爆了……

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

OpenAI還在一場(chǎng)活動(dòng)中現(xiàn)場(chǎng)獻(xiàn)上GPT-4o語(yǔ)音和視覺(jué)模式的最新Demo。

今年CVPR共收到投稿11532份，比上年增加25%，其中2719篇論文被接收，接收率為23.6%，競(jìng)爭(zhēng)非常激烈。

接下來(lái)一起看看獲獎(jiǎng)?wù)撐氖侨绾蚊摲f而出的。

最佳論文

Rich Human Feedback for Text-to-Image Generation

論文作者來(lái)自加利福尼亞大學(xué)圣地亞哥分校、谷歌研究院、南加州大學(xué)、劍橋大學(xué)、布蘭代斯大學(xué)。

當(dāng)前文本生圖模型生成的圖像仍存在失真、與文本不匹配、美學(xué)質(zhì)量差等問(wèn)題，而現(xiàn)有評(píng)估指標(biāo)如IS、FID等無(wú)法反映單個(gè)圖像的質(zhì)量細(xì)節(jié)問(wèn)題。

先前一些工作嘗試采集人類偏好或評(píng)分作為反饋，但仍然是單一的整體得分，缺乏可解釋性和可操作性。因此，作者提出了收集豐富的細(xì)粒度人類反饋信息，用于更好地評(píng)估和改進(jìn)生成模型。

作者用Stable Diffusion生成的Pick-a-Pic數(shù)據(jù)集篩選了18K張圖像，之后收集了“標(biāo)注文本描述中與圖像不匹配的關(guān)鍵詞”、“標(biāo)記圖像中的失真/不合理區(qū)域”等人類反饋信息。每張圖像由3人獨(dú)立標(biāo)注，通過(guò)平均/投票等方式合并得到最終反饋標(biāo)簽。

之后，設(shè)計(jì)了一種基于ViT和T5X的多模態(tài)Transformer模型RAHF，使用三種預(yù)測(cè)器預(yù)測(cè)上述豐富的人類反饋信息:

使用卷積層和上采樣層預(yù)測(cè)失真和不匹配的熱力圖

使用卷積層和全連接層預(yù)測(cè)4個(gè)方面的評(píng)分

使用Transformer解碼器生成帶有特殊token的文本序列，標(biāo)識(shí)不匹配的關(guān)鍵詞

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

實(shí)驗(yàn)中，RAHF模型在多個(gè)任務(wù)上顯著優(yōu)于基線模型，如ResNet-50和CLIP。

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

此外，作者還探索了三種利用RAHF預(yù)測(cè)的豐富反饋來(lái)改進(jìn)文本到圖像生成模型Muse方法。

使用預(yù)測(cè)的質(zhì)量評(píng)分篩選優(yōu)質(zhì)數(shù)據(jù)微調(diào)Muse模型，生成圖像的質(zhì)量前后對(duì)比如下：

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

使用預(yù)測(cè)的失真熱力圖生成掩碼區(qū)域，在該區(qū)域內(nèi)對(duì)Muse生成圖像進(jìn)行局部修補(bǔ)，減少了生成圖像的失真問(wèn)題：

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

Generative Image Dynamics

論文作者來(lái)自谷歌研究院。

自然界中的場(chǎng)景總是在運(yùn)動(dòng)，即使是看似靜態(tài)的場(chǎng)景也會(huì)因?yàn)轱L(fēng)、水流、呼吸等而產(chǎn)生微妙的振蕩。

論文提出了一種從單張靜態(tài)圖像生成自然振蕩動(dòng)畫的新方法，而且支持用戶與圖中物體進(jìn)行交互：

團(tuán)隊(duì)發(fā)現(xiàn)自然場(chǎng)景中的振蕩運(yùn)動(dòng)，如樹(shù)葉擺動(dòng)等，主要由低頻分量組成，因此引入了譜體積作為運(yùn)動(dòng)表示，即對(duì)視頻序列中提取的像素運(yùn)動(dòng)軌跡進(jìn)行傅里葉變換得到的頻域表示，只需少量的低頻傅里葉系數(shù)即可保留大部分運(yùn)動(dòng)信息。

然后，作者采用潛變量擴(kuò)散模型從輸入圖像預(yù)測(cè)譜體積，并提出了頻率自適應(yīng)歸一化和頻率協(xié)調(diào)去噪兩種策略來(lái)提高預(yù)測(cè)質(zhì)量。

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

最后，將預(yù)測(cè)的譜體積通過(guò)逆傅里葉變換轉(zhuǎn)化為運(yùn)動(dòng)紋理，并設(shè)計(jì)了一種基于圖像的渲染模塊，將輸入圖像按預(yù)測(cè)的運(yùn)動(dòng)軌跡進(jìn)行前向渲染，最終生成展現(xiàn)自然振蕩運(yùn)動(dòng)的動(dòng)畫視頻序列。

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

結(jié)合基于圖像的渲染模塊，這些軌跡可以用于多個(gè)應(yīng)用場(chǎng)景，例如將靜態(tài)圖像轉(zhuǎn)換為無(wú)縫循環(huán)的視頻，或者通過(guò)將光譜體積解釋為圖像空間模態(tài)基底，近似物體動(dòng)態(tài)，讓用戶能夠與真實(shí)圖片中的物體進(jìn)行逼真的交互。

作者從定量和定性兩方面評(píng)估生成視頻的質(zhì)量，結(jié)果顯示該方法明顯優(yōu)于基準(zhǔn)：

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

最后再來(lái)看一下效果：

最佳學(xué)生論文

BioCLIP: A Vision Foundation Model for the Tree of Life

論文作者來(lái)自俄亥俄州立大學(xué)、微軟研究院、加利福尼亞大學(xué)歐文分校、倫斯勒理工學(xué)院。

他們構(gòu)建了一個(gè)大規(guī)模生物學(xué)圖像數(shù)據(jù)集TreeOfLife-10M，包含1040萬(wàn)張圖像，覆蓋454103個(gè)生物物種，并提出了BioCLIP模型，利用CLIP式的多模態(tài)對(duì)比學(xué)習(xí)目標(biāo)，結(jié)合生物學(xué)分類層次結(jié)構(gòu)用TreeOfLife-10M數(shù)據(jù)集預(yù)訓(xùn)練模型。

使用該方法可很好地捕獲生物分類體系的層級(jí)結(jié)構(gòu)，從而實(shí)現(xiàn)對(duì)看不見(jiàn)類別樣本的泛化能力。

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

Mip-Splatting: Alias-free 3D Gaussian Splatting

3D高斯濺射展示了令人印象深刻的新穎視圖合成結(jié)果，達(dá)到了高效率和高保真度。然而，當(dāng)改變采樣率時(shí)，例如通過(guò)改變焦距或相機(jī)距離，可以觀察到強(qiáng)烈的偽影。

團(tuán)隊(duì)發(fā)現(xiàn)這種現(xiàn)象的根源可歸因于缺乏3D頻率約束和2D膨脹濾波器的使用。

為了解決這個(gè)問(wèn)題，團(tuán)隊(duì)引入了一個(gè)3D平滑濾波器，根據(jù)輸入視圖引起的最大采樣頻率來(lái)限制3D Gaussian primitive的大小，從而消除放大時(shí)的高頻偽影。

此外，用模擬2D盒式濾波器的2D Mip濾波器替換2D膨脹濾波器，可以有效緩解混疊和膨脹問(wèn)題。

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)

團(tuán)隊(duì)還提供了在線演示，感興趣的可以玩起來(lái)了。

https://niujinshuchong.github.io/mip-splatting-demo/

最佳論文：

https://arxiv.org/abs/2312.10240

https://generative-dynamics.github.io

最佳學(xué)生論文：

https://arxiv.org/abs/2311.16493

https://arxiv.org/pdf/2311.18803

參考鏈接：

[1]https://x.com/CVPR

[2]https://x.com/PauloFagundesIA/status/1803446527752278425

CVPR最佳論文被生成式AI占領(lǐng)，清華武大華南農(nóng)大上科校友獲獎(jiǎng)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-06-20 08:38:09 瀏覽：6606次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明