<abbr id="8w44c"><th id="8w44c"></th></abbr>

<fieldset id="8w44c"></fieldset>

展會(huì)信息港展會(huì)大全

當(dāng)前位置：人工智能實(shí)驗(yàn)室> IT觀察 > 人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新還在寫(xiě)真視頻生成上好于Sora

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新還在寫(xiě)真視頻生成上好于Sora
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-30 瀏覽：709次

導(dǎo)讀：在4月27日召開(kāi)的中關(guān)村論壇通用人工智能平行論壇上，人大系初創(chuàng)公司智子引擎隆重發(fā)布全新的多模態(tài)大模型Awaker 1.0.向AGI邁出至關(guān)重要的一步。相對(duì)于智子引擎前代的ChatImg序列模型，Awaker 1.0采用全新的MOE架構(gòu)并具備自主更新能力，是業(yè)界首個(gè) ......

在4月27日召開(kāi)的中關(guān)村論壇通用人工智能平行論壇上，人大系初創(chuàng)公司智子引擎隆重發(fā)布全新的多模態(tài)大模型Awaker 1.0.向AGI邁出至關(guān)重要的一步。相對(duì)于智子引擎前代的ChatImg序列模型，Awaker 1.0采用全新的MOE架構(gòu)并具備自主更新能力，是業(yè)界首個(gè)實(shí)現(xiàn) 真正自主更新的多模態(tài)大模型。在視覺(jué)生成方面，Awaker 1.0采用完全自研的視頻生成底座VDT，在寫(xiě)真視頻生成上取得好于Sora的效果。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新還在寫(xiě)真視頻生成上好于Sora

Awaker 1.0是一個(gè)將視覺(jué)理解與視覺(jué)生成進(jìn)行超級(jí)融合的多模態(tài)大模型。在理解側(cè)，Awaker 1.0與數(shù)字世界和現(xiàn)實(shí)世界進(jìn)行交互，在執(zhí)行任務(wù)的過(guò)程中將場(chǎng)景行為數(shù)據(jù)反哺給模型，以實(shí)現(xiàn)持續(xù)更新與訓(xùn)練;在生成側(cè)，Awaker 1.0可以生成高質(zhì)量的多模態(tài)內(nèi)容，對(duì)現(xiàn)實(shí)世界進(jìn)行模擬，為理解側(cè)模型提供更多的訓(xùn)練數(shù)據(jù)。尤其重要的是，因?yàn)榫邆?真正的自主更新能力，Awaker 1.0適用于更廣泛的行業(yè)場(chǎng)景，能夠解決更復(fù)雜的實(shí)際任務(wù)，比如AI Agent、具身智能、綜合治理、安防巡檢等。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新還在寫(xiě)真視頻生成上好于Sora

1、Awaker的MOE基座模型

在理解側(cè)，Awaker 1.0的基座模型主要解決了多模態(tài)多任務(wù)預(yù)訓(xùn)練存在嚴(yán)重沖突的問(wèn)題。受益于精心設(shè)計(jì)的多任務(wù)MOE架構(gòu)，Awaker 1.0的基座模型既能繼承智子引擎前代多模態(tài)大模型ChatImg的基礎(chǔ)能力，還能學(xué)習(xí)各個(gè)多模態(tài)任務(wù)所需的獨(dú)特能力。相對(duì)于前代多模態(tài)大模型ChatImg，Awaker 1.0的基座模型能力在多個(gè)任務(wù)上都有了大幅提升。鑒于主流的多模態(tài)評(píng)測(cè)榜單存在評(píng)測(cè)數(shù)據(jù)泄露的問(wèn)題，我們采取嚴(yán)格的標(biāo)準(zhǔn)構(gòu)建自有的評(píng)測(cè)集，其中大部分的測(cè)試圖片來(lái)自個(gè)人的手機(jī)相冊(cè)。在該多模態(tài)評(píng)測(cè)集上，我們對(duì)Awaker 1.0和國(guó)內(nèi)外最先進(jìn)的三個(gè)多模態(tài)大模型進(jìn)行公平的人工評(píng)測(cè)，詳細(xì)的評(píng)測(cè)結(jié)果如下表所示。注意到GPT-4V和Intern-VL并不直接支持檢測(cè)任務(wù)，它們的檢測(cè)結(jié)果是通過(guò)要求使用語(yǔ)言描述物體方位得到的。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新還在寫(xiě)真視頻生成上好于Sora

我們發(fā)現(xiàn)，Awaker 1.0的基座模型在視覺(jué)問(wèn)答和業(yè)務(wù)應(yīng)用任務(wù)上超過(guò)了GPT-4V、Qwen-VL-Max和Intern-VL，同時(shí)它在描述、推理和檢測(cè)任務(wù)上也達(dá)到了次好的效果�？傮w而言，Awaker 1.0的平均得分超過(guò)國(guó)內(nèi)外最先進(jìn)的三個(gè)模型，驗(yàn)證了多任務(wù)MOE架構(gòu)的有效性。下面是幾個(gè)具體的對(duì)比分析例子。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新還在寫(xiě)真視頻生成上好于Sora

從這些對(duì)比例子可以看到，在計(jì)數(shù)和OCR問(wèn)題上，Awaker 1.0能正確地給出答案，而其它三個(gè)模型均回答錯(cuò)誤(或部分錯(cuò)誤)。在詳細(xì)描述任務(wù)上，Qwen-VL-Max比較容易出現(xiàn)幻覺(jué)，Intern-VL能夠準(zhǔn)確地描述圖片的內(nèi)容但在某些細(xì)節(jié)上不夠準(zhǔn)確和具體。GPT-4V和Awaker 1.0不但能夠詳細(xì)地描述圖片的內(nèi)容，而且能夠準(zhǔn)確地識(shí)別出圖片中的細(xì)節(jié)，如圖中展示的可口可樂(lè)。

2、Awaker+具身智能：邁向AGI

多模態(tài)大模型與具身智能的結(jié)合是非常自然的，因?yàn)槎嗄B(tài)大模型所具有的視覺(jué)理解能力可以天然與具身智能的攝像頭進(jìn)行結(jié)合。在人工智能領(lǐng)域，多模態(tài)大模型+具身智能甚至被認(rèn)為是實(shí)現(xiàn)通用人工智能(AGI)的可行路徑。一方面，人們期望具身智能擁有適應(yīng)性，即智能體能夠通過(guò)持續(xù)學(xué)習(xí)來(lái)適應(yīng)不斷變化的應(yīng)用環(huán)境，既能在已知多模態(tài)任務(wù)上越做越好，也能快速適應(yīng)未知的多模態(tài)任務(wù)。另一方面，人們還期望具身智能具有真正的創(chuàng)造性，希望它通過(guò)對(duì)環(huán)境的自主探索，能夠發(fā)現(xiàn)新的策略和解決方案，并探索人工智能的能力邊界。通過(guò)將多模態(tài)大模型用作具身智能的大腦，我們有可能大幅地提升具身智能的適應(yīng)性和創(chuàng)造性，從而最終接近AGI的門(mén)檻(甚至實(shí)現(xiàn)AGI)。

但是，現(xiàn)有的多模態(tài)大模型都存在兩個(gè)明顯的問(wèn)題：一是模型的迭代更新周期長(zhǎng)，需要大量的人力投入;二是模型的訓(xùn)練數(shù)據(jù)都源自已有的數(shù)據(jù)，模型不能持續(xù)獲得大量的新知識(shí)。雖然通過(guò)RAG和長(zhǎng)上下文的方式也可以注入持續(xù)出現(xiàn)的新知識(shí)，但是多模態(tài)大模型本身并沒(méi)有學(xué)習(xí)到這些新知識(shí)，同時(shí)這兩種補(bǔ)救方式還會(huì)帶來(lái)額外的問(wèn)題。總之，目前的多模態(tài)大模型在實(shí)際應(yīng)用場(chǎng)景中均不具備很強(qiáng)的適應(yīng)性，更不用說(shuō)創(chuàng)造性，導(dǎo)致在行業(yè)落地時(shí)總是出現(xiàn)各種各樣的困難。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新還在寫(xiě)真視頻生成上好于Sora

智子引擎此次發(fā)布的Awaker 1.0.是世界上首個(gè)具有自主更新機(jī)制的多模態(tài)大模型，可以用作具身智能的大腦。Awaker 1.0的自主更新機(jī)制，包含三大關(guān)鍵技術(shù)：數(shù)據(jù)主動(dòng)生成、模型反思評(píng)估、模型連續(xù)更新。區(qū)別于所有其它多模態(tài)大模型，Awaker 1.0是活的，它的參數(shù)可以實(shí)時(shí)持續(xù)地更新。從下方的框架圖中可以看出，Awaker 1.0能夠與各種智能設(shè)備結(jié)合，通過(guò)智能設(shè)備觀察世界，產(chǎn)生動(dòng)作意圖，并自動(dòng)構(gòu)建指令控制智能設(shè)備完成各種動(dòng)作。智能設(shè)備在完成各種動(dòng)作后會(huì)自動(dòng)產(chǎn)生各種反饋，Awaker 1.0能夠從這些動(dòng)作和反饋中獲取有效的訓(xùn)練數(shù)據(jù)進(jìn)行持續(xù)的自我更新，不斷強(qiáng)化模型的各種能力。

以新知識(shí)注入為例，Awaker 1.0能夠不斷地在互聯(lián)網(wǎng)上學(xué)習(xí)最新的新聞信息，并結(jié)合新學(xué)習(xí)到的新聞信息回答各種復(fù)雜問(wèn)題。不同于RAG和長(zhǎng)上下文的傳統(tǒng)方式，Awaker 1.0能真正學(xué)到新知識(shí)并記憶在模型的參數(shù)上。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新還在寫(xiě)真視頻生成上好于Sora

從上述的例子可以看到，在連續(xù)三天的自我更新中，Awaker 1.0每天都能夠?qū)W習(xí)當(dāng)天的新聞信息，并在描述中準(zhǔn)確地說(shuō)出對(duì)應(yīng)的信息。同時(shí)，Awaker 1.0在連續(xù)學(xué)習(xí)的過(guò)程中并不會(huì)很快地遺忘學(xué)過(guò)的知識(shí)，例如智界S7的知識(shí)在2天后仍然被Awaker 1.0記住或理解。

Awaker 1.0還能夠與各種智能設(shè)備結(jié)合，實(shí)現(xiàn)云邊協(xié)同。Awaker 1.0作為大腦部署在云端，控制各種邊端智能設(shè)備執(zhí)行各項(xiàng)任務(wù)。邊端智能設(shè)備執(zhí)行各項(xiàng)任務(wù)時(shí)獲得的反饋又會(huì)源源不斷地傳回給Awaker 1.0.讓它持續(xù)地獲得訓(xùn)練數(shù)據(jù)，不斷進(jìn)行自我更新。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新還在寫(xiě)真視頻生成上好于Sora

上述云邊協(xié)同的技術(shù)路線已經(jīng)應(yīng)用在電網(wǎng)智能巡檢、智慧城市等應(yīng)用場(chǎng)景中，取得了遠(yuǎn)遠(yuǎn)好于傳統(tǒng)小模型的識(shí)別效果，并獲得了行業(yè)客戶(hù)的高度認(rèn)可。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新還在寫(xiě)真視頻生成上好于Sora

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新還在寫(xiě)真視頻生成上好于Sora

3、現(xiàn)實(shí)世界的模擬器：VDT

Awaker 1.0的生成側(cè)，是智子引擎自主研發(fā)的類(lèi)Sora視頻生成底座VDT，可以用作現(xiàn)實(shí)世界的模擬器。VDT的研究成果于2023年5月發(fā)布在arXiv網(wǎng)站，比OpenAI發(fā)布Sora提前10個(gè)月。VDT的學(xué)術(shù)論文已經(jīng)被國(guó)際頂級(jí)人工智能會(huì)議ICLR 2024接收。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新還在寫(xiě)真視頻生成上好于Sora

視頻生成底座VDT 的創(chuàng)新之處，主要包括以下幾個(gè)方面：

將 Transformer 技術(shù)應(yīng)用于基于擴(kuò)散的視頻生成，展現(xiàn)了 Transformer 在視頻生成領(lǐng)域的巨大潛力。VDT 的優(yōu)勢(shì)在于其出色的時(shí)間依賴(lài)性捕獲能力，能夠生成時(shí)間上連貫的視頻幀，包括模擬三維對(duì)象隨時(shí)間的物理動(dòng)態(tài)。

提出統(tǒng)一的時(shí)空掩碼建模機(jī)制，使 VDT 能夠處理多種視頻生成任務(wù)，實(shí)現(xiàn)了技術(shù)的廣泛應(yīng)用。VDT 靈活的條件信息處理方式，如簡(jiǎn)單的 token 空間拼接，有效地統(tǒng)一了不同長(zhǎng)度和模態(tài)的信息。同時(shí)，通過(guò)與該工作提出的時(shí)空掩碼建模機(jī)制結(jié)合，VDT 成為了一個(gè)通用的視頻擴(kuò)散工具，在不修改模型結(jié)構(gòu)的情況下可以應(yīng)用于無(wú)條件生成、視頻后續(xù)幀預(yù)測(cè)、插幀、圖生視頻、視頻畫(huà)面補(bǔ)全等多種視頻生成任務(wù)。

我們重點(diǎn)探索了VDT對(duì)簡(jiǎn)單物理規(guī)律的模擬，在Physion數(shù)據(jù)集上對(duì)VDT進(jìn)行微調(diào)。在下面的示例中，我們發(fā)現(xiàn)VDT成功模擬了物理過(guò)程，如小球沿拋物線軌跡運(yùn)動(dòng)和小球在平面上滾動(dòng)并與其他物體碰撞等。同時(shí)也能從第2行第2個(gè)例子中看出VDT捕捉到了球的速度和動(dòng)量規(guī)律，因?yàn)樾∏蜃罱K由于沖擊力不夠而沒(méi)有撞倒柱子。這證明了Transformer架構(gòu)可以學(xué)習(xí)到一定的物理規(guī)律。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新還在寫(xiě)真視頻生成上好于Sora

我們還在寫(xiě)真視頻生成任務(wù)上進(jìn)行了深度探索。該任務(wù)對(duì)視頻生成質(zhì)量的要求非常高，因?yàn)槲覀兲烊粚?duì)人臉以及人物的動(dòng)態(tài)變化更加敏感。鑒于該任務(wù)的特殊性，我們需要結(jié)合VDT(或Sora)和可控生成來(lái)應(yīng)對(duì)寫(xiě)真視頻生成中的挑戰(zhàn)。目前智子引擎已經(jīng)突破寫(xiě)真視頻生成的大部分關(guān)鍵技術(shù)，取得比Sora更好的寫(xiě)真視頻生成質(zhì)量。智子引擎還將繼續(xù)優(yōu)化人像可控生成算法，同時(shí)也在積極進(jìn)行商業(yè)化探索。

未來(lái)更加通用的VDT將成為解決多模態(tài)大模型數(shù)據(jù)來(lái)源問(wèn)題的得力工具。使用視頻生成的方式，VDT將能夠?qū)ΜF(xiàn)實(shí)世界進(jìn)行模擬，進(jìn)一步提高視覺(jué)數(shù)據(jù)生產(chǎn)的效率，為多模態(tài)大模型Awaker的自主更新提供助力。

4、結(jié)語(yǔ)

Awaker 1.0是智子引擎團(tuán)隊(duì)向著實(shí)現(xiàn)AGI 的終極目標(biāo)邁進(jìn)的關(guān)鍵一步。團(tuán)隊(duì)認(rèn)為AI的自我探索、自我反思等自主學(xué)習(xí)能力是智能水平的重要評(píng)估標(biāo)準(zhǔn)，與持續(xù)加大參數(shù)規(guī)模(Scaling Law)相比是同等重要的。Awaker 1.0已實(shí)現(xiàn) 數(shù)據(jù)主動(dòng)生成、模型反思評(píng)估、模型連續(xù)更新等關(guān)鍵技術(shù)框架，在理解側(cè)和生成側(cè)都實(shí)現(xiàn)了效果突破，有望加速多模態(tài)大模型行業(yè)的發(fā)展，最終讓人類(lèi)實(shí)現(xiàn)AGI。

上一篇：驚艷了！天工AI真的能理解和回應(yīng)老WOWer的魔獸情結(jié)！

下一篇：以AI重新定義醫(yī)療技術(shù) 醫(yī)渡科技亮相中關(guān)村論壇給出新觀點(diǎn)

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

不被“機(jī)器狗之父”看好的人形機(jī)器人，未來(lái)要如何發(fā)展？

閱讀量：72892

國(guó)產(chǎn)版達(dá)芬奇手術(shù)機(jī)器人價(jià)格跳水，是價(jià)格戰(zhàn)要來(lái)了嗎？

閱讀量：67872

借勢(shì)智元機(jī)器人，富臨精工跨界入局人形機(jī)器人，準(zhǔn)備好了嗎？

閱讀量：43798

實(shí)探全球首個(gè)核電燈塔工廠，這里有各式各樣的機(jī)器人 | 碳訪

閱讀量：41944

傅盛：我不看好雙足機(jī)器人的商業(yè)化

閱讀量：13312

英偉達(dá)利用蘋(píng)果Vision Pro加速人形機(jī)器人開(kāi)發(fā)

閱讀量：11314

推薦內(nèi)容

2024世界珠寶發(fā)展大會(huì)暨海南國(guó)際珠寶展覽會(huì)（GGJC）（中寶協(xié)珠寶展）
2024鴻威世界寵物博覽會(huì)（GWPF世寵會(huì)）十城巡展-廈門(mén)站
2024上�？Х扰c飲品展覽會(huì)
2024世界智能制造博覽會(huì)
2024第28屆中山茶業(yè)博覽會(huì)（弘陽(yáng)茶博會(huì)）

熱門(mén)欄目HotCates

關(guān)于我們

人工智能實(shí)驗(yàn)室（AiLab：Artificial Intelligence Laboratory）中國(guó)人工智能領(lǐng)域的專(zhuān)業(yè)媒體平臺(tái)，始于2010年的中國(guó)AI創(chuàng)業(yè)先行者，專(zhuān)注人工智能、機(jī)器人、無(wú)人駕駛、可穿戴、模式識(shí)別、物聯(lián)網(wǎng)、云計(jì)算等新興技術(shù)信息資訊，是人工智能愛(ài)好者學(xué)習(xí)和交流平臺(tái)，是一群夢(mèng)想者與實(shí)踐者的網(wǎng)絡(luò)家園！

版權(quán)聲明

本站部分文章來(lái)源于互聯(lián)網(wǎng)以及網(wǎng)友投稿，本站只負(fù)責(zé)對(duì)文章進(jìn)行整理、排版、編輯，是出于知識(shí)傳遞之目的，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如果您有什么意見(jiàn)或建議，請(qǐng)聯(lián)系E-mail：kefu#dahaiyang.cn(將#換成@)！

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室版權(quán)所有關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港

<table id="wkeos"></table>

<fieldset id="wkeos"><tr id="wkeos"></tr></fieldset>

<table id="wkeos"><tbody id="wkeos"></tbody></table>

<strike id="wkeos"><kbd id="wkeos"></kbd></strike>

<fieldset id="wkeos"><delect id="wkeos"></delect></fieldset>

<fieldset id="wkeos"><tr id="wkeos"></tr></fieldset>