展會信息港展會大全

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-26 19:12:21   瀏覽:201次  

導(dǎo)讀:機器之心原創(chuàng)作者:Panda、楊文用AI過一個賽博新年。自從有了 AI,過個年都相當(dāng)「有戲」。再有三天,就要進入蛇年了。各家 AI 廠商都憋足了勁兒想搞波大的,AI 全家福、AI 寫春聯(lián)、AI 賀歲短片統(tǒng)統(tǒng)整上,甚至還有跟親戚激情對線的 AI「嘴替」。百度這次也沒閑著,推出了「AI 拜年」活動,只需一張照片和一句 prompt,人人都可免費定制拜年賀卡。比如,讓「硅谷鋼鐵俠」馬斯克給 ......

機器之心原創(chuàng)

作者:Panda、楊文

用AI過一個賽博新年。

自從有了 AI,過個年都相當(dāng)「有戲」。

再有三天,就要進入蛇年了。

各家 AI 廠商都憋足了勁兒想搞波大的,AI 全家福、AI 寫春聯(lián)、AI 賀歲短片統(tǒng)統(tǒng)整上,甚至還有跟親戚激情對線的 AI「嘴替」。

百度這次也沒閑著,推出了「AI 拜年」活動,只需一張照片和一句 prompt,人人都可免費定制拜年賀卡。

比如,讓「硅谷鋼鐵俠」馬斯克給特斯拉貼福字:

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

奧特曼在春晚舞臺上撒紅包:

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

或者讓「皮衣刀客」黃仁勛身穿喜慶的衣服點鞭炮:

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

再來句祝福語,一張年味十足的春節(jié)賀卡齊活。

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

外行看熱鬧,內(nèi)行看門道。百度這一拜年神器的背后,離不開其自研的 iRAG(image-based RAG)技術(shù)。

憑借百度搜索的億級圖片資源和強大的基礎(chǔ)模型能力,它可以生成各種超真實的圖片,整體效果遠遠超過文生圖原生系統(tǒng),不僅去掉了 AI 味兒,而且成本很低。

先來看看我們的一手實測成果。

蛇年春節(jié),你可以 AI 拜年

對于當(dāng)代年輕人來說,春節(jié)拜年簡直就是大型社死現(xiàn)場。

不僅要接受七大姑八大姨的「靈魂拷問」,還要絞盡腦汁找話題和不熟的親戚「尬聊」。

即使是發(fā)個拜年短信也得反復(fù)編輯,要是太普通,總覺得沒啥誠意,發(fā)出去怕被淹沒在信息洪流里。要是太花哨,又顯得不真誠,讓人覺得在故意堆砌辭藻。要是用網(wǎng)絡(luò)熱梗,還擔(dān)心長輩們看不懂,或者一不小心鬧出誤會……

總之,這個年,一拜一個不吱聲。

而百度搜索的「AI 拜年」正好可以讓年輕人遠離這些尷尬。

玩法也很簡單。直接在百度搜索「祝福語」,點擊「做賀卡」進行文案調(diào)整,然后在「創(chuàng)意照片」中上傳一張單人正臉圖片,再輸入 Prompt,就能生成一張獨一無二的新年祝福賀卡。

比如我們讓名人來充當(dāng)拜年大使,瑪麗蓮夢露、馬斯克甚至是甄…… 只要將參考圖提供給 iRAG 加持的百度文生圖大模型,再用文本描述一下自己的創(chuàng)意,就能獲得專屬的拜年圖片。


可以看到,生成的圖片非常精準(zhǔn)地保留了人物的身份特征,同時也嚴(yán)格地遵循了用戶的文本指令。在保證了超高質(zhì)量的同時,生成的場景與物體也沒有出現(xiàn)很多文生圖模型常見的幻覺現(xiàn)象。

如果你更愿意自己出鏡,但又是 P 圖苦手,也完全可以交給「AI 拜年」代勞  只需一張你自己的照片和一句話,就能生成或莊重、或活潑、或妙趣、或古靈精怪的拜年圖。

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

此外,你還可以讓參考圖片中的人物出現(xiàn)在任何你想象的場景中或去做任何你想象的事情。

比如讓奧黛麗·赫本穿著東北大花襖寫春聯(lián),甚至還能用它給小李子合成相親照片。

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

(左為原圖,右為生成圖。)在測試過程中,我們還注意到,百度 iRAG 驅(qū)動的文生圖模型不僅具有非常強大的抗幻覺能力,而且還在漢語對齊方面下足了功夫。

我們知道,在文生圖時,使用成語的結(jié)果往往難以預(yù)料,因為很多文生圖模型在面對成語時往往會直接取用其字面含義,從而生成嚴(yán)重偏離期望的結(jié)果。

舉個例子,如果我們的提示詞是「幫我畫一個虎頭虎腦的大胖小子」,那么文生圖模型可能會畫出一個真正老虎頭的人物來。

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

不過,如今的百度憑借自身在中國文化上的積淀,能在很大程度上避免這種語義理解上的錯誤。

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

(Prompt:生成一張虎頭虎腦的大胖小子的圖片。)再比如車水馬龍、青梅竹馬這類成語,甚至是唐伯虎點秋香,百度文生圖模型統(tǒng)統(tǒng)搞得定。

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

曾經(jīng)中國美食也讓文生圖模型們頻頻「翻車」。驢肉火燒成了驢肉漢堡、啤酒鴨成了「泡」在啤酒里的烤鴨。

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

而基于 iRAG 驅(qū)動的百度文生圖模型目前也已攻克這一難題。

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

(左為原圖,右為生成圖。Prompt:生成畫一張貝多芬吃虎皮蛋糕的圖片。)基于圖像的 RAG 究竟如何煉成?

既然這個有趣應(yīng)用的背后是百度自研的一種名為 iRAG 的技術(shù),那么到底啥是 iRAG?

所謂 iRAG,就是檢索增強的文生圖技術(shù),要想把它搞明白,我們就得先理解什么是 RAG。

什么是 RAG?

RAG(檢索增強生成)的概念其實并不復(fù)雜。簡單來說,就是讓大模型在執(zhí)行生成之前參考或引用某些數(shù)據(jù),而這些數(shù)據(jù)通常并不在該大模型的訓(xùn)練數(shù)據(jù)集內(nèi),于專有或私有數(shù)據(jù)。

利用這些數(shù)據(jù),RAG 可以提升響應(yīng)的相關(guān)性,從而無需重新訓(xùn)練模型就能提升大模型的輸出。RAG 尤其顯著的一大優(yōu)勢是可以降低大模型的「幻覺」問題 RAG 可通過引用外部知識有效減少生成內(nèi)容出現(xiàn)事實性錯誤的問題。正是因為這些優(yōu)勢,RAG 已經(jīng)在聊天機器人等 LLM 應(yīng)用中得到了廣泛應(yīng)用。

RAG 技術(shù)近年來發(fā)展迅速,并且可以明顯分成幾個階段。首先,RAG 誕生時,恰逢 Transformer 架構(gòu)興起,其作用主要是通過預(yù)訓(xùn)練模型來整合額外知識,從而增強語言模型。

后來,ChatGPT 橫空出世,LLM 表現(xiàn)出了非常強大的上下文學(xué)習(xí)(ICL)能力。RAG 的研究方向也轉(zhuǎn)向了為 LLM 提供更好的信息,從而使其可以在推理階段回答更加復(fù)雜、需要更多知識的問題。這也是 RAG 高速發(fā)展的時代。

之后,隨著研究進步,RAG 也不再限于推理階段了,還開始與 LLM 微調(diào)技術(shù)結(jié)合在一起。

現(xiàn)在,RAG 這個研究方向可以說是百花齊放,但其核心流程基本可以歸結(jié)為三個階段:索引(Indexing)、檢索(Retrieval)、生成(Generation)。下圖就展示了一個典型的 RAG 應(yīng)用。

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

一個應(yīng)用于問答任務(wù)的 RAG 典型實例,圖源:arXiv:2312.10997在這個示例中,用戶先向大模型提出一個涉及當(dāng)時最新新聞的問題,而這個新聞自然不可能出現(xiàn)在該大模型之前的預(yù)訓(xùn)練數(shù)據(jù)中。于是,RAG 就可以填補上這個空白  收集與該用戶查詢相關(guān)的新聞文章,再將這些文章與原始問題一起組合成一個全面的提示詞提供給大模型;這樣一來,大模型便可以基于豐富的信息生成答案了。

當(dāng)然,現(xiàn)如今的 RAG 技術(shù)要遠遠更加多樣化,還會采用很多高級技術(shù)及模塊化方法。百度的 iRAG 便是一種進階版的 RAG 技術(shù),是 RAG 向多模態(tài)的泛化與拓展。

iRAG = 圖像 + RAG

在此之前,RAG 采用的外部知識庫通常是文本數(shù)據(jù)或表格等結(jié)構(gòu)化數(shù)據(jù),而百度成功將這一技術(shù)思路應(yīng)用在了圖像數(shù)據(jù)上,并成功自主研發(fā)了 iRAG(檢索增強的文生圖技術(shù) / Image-Based Retrieval-Augmented Generation)。該技術(shù)可解決文生圖系統(tǒng)生成結(jié)果真實感低以及幻覺問題。

很多文生圖系統(tǒng)都存在「一眼 AI」的問題,簡而言之就是太假了,之前一個非常著名的例子是「威爾·史密斯吃意大利面」。

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

早期的文生圖系統(tǒng)既不能很好地還原人像,也無法很好地處理事物之間的互動。此外,與大型語言模型一樣,文生圖大模型同樣也存在幻覺問題,也就是說這些模型可能會過度腦補,生成雖有真實感但卻不符合實際情況的圖像。百度創(chuàng)始人兼 CEO 李彥宏曾在百度世界大會 2024 上舉了一個例子,一些文生圖模型在生成「天壇」的圖像時會忽視現(xiàn)實情況,自行將天壇加高一層。這就是文生圖模型普遍存在的典型幻覺現(xiàn)象,并會在很大程度上限制多模態(tài)大模型的規(guī);瘧(yīng)用。

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

圖源:百度世界大會 2024

iRAG 基于百度搜索的億級圖片資源跟強大的基礎(chǔ)模型能力(文心大模型),解決了文生圖系統(tǒng)的兩大核心難點:真實感不足和幻覺。

通過檢索百度搜索的大規(guī)模圖像數(shù)據(jù)庫,iRAG 可通過參考和引用真實的圖像元素為文生圖的真實感和事實性保駕護航。當(dāng)然,需要指出,iRAG 并不會直接引用數(shù)據(jù)庫中的圖像元素,而是會基于檢索到的圖像進行符合文本提示詞要求的重繪。比如說,如果圖像數(shù)據(jù)庫中僅有一張?zhí)靿恼嬲掌,而用戶想要生成一張(zhí)靿暮脚膱D,iRAG 就會在生成這張航拍圖時以數(shù)據(jù)庫中的正面照片為參考,保證變換視角后的生成圖片不會偏離天壇的真實樣貌。

不僅如此,百度還成功壓低了 iRAG 的計算成本,能以非?斓乃俣取⒔趿愠杀镜貫橛脩籼峁┓⻊(wù)。百度自己給出的總結(jié)是:「無幻覺、超真實、沒成本、立等可取」。

據(jù)了解,百度是在 2024 年初開始研究解決文生圖模型的幻覺問題,推進 iRAG 的相關(guān)研究,當(dāng)時 OpenAI 剛公開展示了 Sora 生成的多個高清視頻,引起了無限遐想和討論。幾個月后,在 Sora 依然還在內(nèi)測時,百度開始公開展示自己的研究成果  基于 iRAG 的文生圖系統(tǒng)已經(jīng)能生成照片級真實感的圖像!

在百度世界大會 2024 上,李彥宏展示了愛因斯坦漫游世界的例子,讓這位無人不知的天才物理學(xué)家成功打卡長城、鳥巢等眾多地標(biāo)。之后他更是自信地表示:「在全球范圍內(nèi),百度的 iRAG 能力是最領(lǐng)先的。」

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

現(xiàn)在,時間又已經(jīng)過去了兩個多月,百度 iRAG 的能力又得到了進一步精進,不僅基礎(chǔ)大模型更強了,而且百度還為之開拓了更多應(yīng)用場景。通過百度搜索 APP,百度也拉低了使用 AI 的門檻,讓任何人都能使用前沿的 AI 文生圖一展自己的想象力,做出奇妙、好玩又有用的視覺內(nèi)容。

并且,你不僅能用 iRAG 制作新年賀卡或名人亂入圖,也能將其作為制作產(chǎn)品宣傳圖的生產(chǎn)力工具。舉個例子,以前為了拍攝產(chǎn)品宣傳圖,你可能會聘請專業(yè)的拍攝團隊,有時候還需要聘請產(chǎn)品模特  有些汽車宣傳海報的制作成本可能會達到數(shù)十萬,但現(xiàn)在有了 iRAG,你只需要將自己的產(chǎn)品圖提供給大模型作為檢索數(shù)據(jù)源,然后用文本描述你想要的場景,百度 iRAG 加持的 AI 就能為你直接生成心儀的產(chǎn)品宣傳圖。

此外,憑借卓越的參考引用能力,百度 iRAG 還非常適合一些需要保持身份一致性的文生圖應(yīng)用,比如制作連續(xù)的漫畫或畫本、運營虛擬偶像、影視作品概念設(shè)計、開發(fā)品牌 IP 形象……

蘊藏?zé)o限可能,iRAG 吹響智能體之年序曲前段時間,有不少 AI 從業(yè)者都對 2025 年做出了一個類似的判斷:這一年會是「智能體之年」,也會是 AI 應(yīng)用大爆發(fā)的一年。

百度搞了個AI「黑科技」,讓科技圈大佬們搶鏡拜年

很多 AI 從業(yè)者都認(rèn)為 2025 年是智能體之年,其中也包括 OpenAI 總裁和 CEO 等現(xiàn)在,2025 年才剛過不到一個月,以蛇年春節(jié)為契機,大量 AI 應(yīng)用就已經(jīng)誕生?梢哉f蛇年春節(jié)會是有史以來 AI 濃度最高的一個春節(jié),也會為「智能體之年」吹響一個完美的序曲。

「AI 拜年」只是一個起點,也是一場立足中國傳統(tǒng)節(jié)日文化的技術(shù)展示。iRAG 技術(shù)必然還將進一步拓展其應(yīng)用場景,視覺設(shè)計類工作當(dāng)然是最基本的。考慮到 iRAG 潛力,其很可能會成為未來視覺設(shè)計工作的一大基本組成,甚至有可能完成視覺設(shè)計中超過一半的基礎(chǔ)工作量。甚至或許,街角煎餅攤的老板也能設(shè)計出自己的高級菜單。

視覺設(shè)計之外,iRAG 也可能會成為許多智能體的核心組件。簡單想象一下,我們就能為其找到大量有價值的應(yīng)用場景,包括基于現(xiàn)實場景創(chuàng)建游戲世界、根據(jù)老照片甚至畫像進行人像復(fù)原、讓我們和喜歡的動漫人物同框合影,還有生成靚麗帥氣的春節(jié)相親照…… 就正如基于文本和數(shù)據(jù)庫的 RAG 讓大量 AI 應(yīng)用變得更有價值一樣。

一點頭腦風(fēng)暴,我們就能想象出 iRAG 蘊含的無盡可能性。現(xiàn)在,這一技術(shù)就已經(jīng)擺在我們眼前了。通過百度搜索,我們可以零成本且快速地抓住春節(jié)假期這個一年一次的大型營銷契機,用 iRAG 為我們產(chǎn)品甚至為我們自己代言。

THE END轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港