具身智能任務是當前 AI 領域的重要研究方向之一,涉及機器人、自動駕駛等需要與真實世界交互的技術。
視頻生成模型的快速發(fā)展使得它們在這些任務中發(fā)揮著關鍵作用,但傳統(tǒng)評估手段更多側重于生成視頻的視覺質量,而忽略了視頻在實際應用場景中的可操作性和物理一致性,尤其是在復雜環(huán)境重點中的表現(xiàn)。
為了找到更好的評估方法,來自香港中文大學(深圳)、上海人工智能實驗室、北京航空航天大學和香港大學的研究人員提出了一種全新的評估框架,用以考察視頻生成模型在具身智能任務中的表現(xiàn)。
日前,相關論文發(fā)表于預印本平臺 arXiv 上。
圖丨相關論文(來源:arXiv)
在論文中,研究團隊提出了一個名為 WorldSimBench 的全新評估框架,用以衡量視頻生成模型的實際應用能力。
現(xiàn)有的視頻生成模型可以生成高度真實的視覺內容,但這些內容能否被用于指導機器人等智能體完成具身任務,這方面的評估還較為欠缺。
研究人員意識到,僅僅依靠視覺效果來衡量模型性能是不夠的,生成的視頻如果不能反映現(xiàn)實世界的物理規(guī)律,將很難應用于復雜的現(xiàn)實世界任務中。
因此,他們設計了顯性感知評估(Explicit Perceptual Evaluation)和隱性操作評估(Implicit Manipulative Evaluation)這兩個維度,旨在從不同角度考察視頻生成模型的性能。
顯性感知評估主要依賴于人類反饋,評估視頻的視覺質量和物理一致性。
通過引入 HF-Embodied 數(shù)據(jù)集(一個用于研究和開發(fā)多模態(tài)人工智能系統(tǒng)的數(shù)據(jù)集),研究人員設計了一種偏好評估器,該評估器基于大量視頻-文本對數(shù)據(jù),通過人類打分的方式,衡量視頻在視覺表現(xiàn)上的優(yōu)劣。
隱性操作評估則關注視頻生成模型在具身智能任務中的實際應用,即生成的視頻是否能夠驅動智能體完成任務。
例如,在自動駕駛場景中,生成的視頻是否能夠反映真實的道路情況,幫助車輛做出正確的決策。
這種雙重評估框架使得視頻生成模型的評價更加全面,能夠更加準確地衡量其在具身任務中的潛在應用價值。
在該論文中,研究人員將現(xiàn)有的視頻生成模型劃分為四個階段(S0-S3),依次代表不同程度的具身智能能力:
S0 階段:模型只關注視覺生成,無具身智能的體現(xiàn)。
S1 階段:模型生成的視頻在視覺上與任務場景相關。
S2 階段:模型開始生成有一定物理一致性的視頻,具有初步的動作生成能力。
S3 階段(世界模擬器):模型能夠生成完全符合物理規(guī)則且能夠直接用于具身任務的視頻。
(來源:arXiv)
其中 S3 階段被定義為“世界模擬器”(World Simulators),即能夠生成完全符合物理規(guī)則,并且可用于指導具身任務的高級視頻生成模型。
值得注意的是,世界模擬器這一概念早在 2018 年就被提出,反映了研究人員希望將視頻生成模型從單純的視覺生成擴展到具有真實物理環(huán)境交互能力的目標,從而為未來的具身智能發(fā)展奠定基矗
為了驗證 WorldSimBench 評估框架的有效性,他們在多個具身智能任務場景中對多種視頻生成模型進行了評估。
分別在 MineRL、CARLA 和 CALVIN 三個仿真環(huán)境中測試了模型的表現(xiàn),對應了開放式具身環(huán)境、自動駕駛 和機器人操控三種重要的智能任務。
MineRL 是一款基于“我的世界”(Minecraft)的模擬環(huán)境,主要用于測試視頻生成模型在復雜、開放式環(huán)境中的表現(xiàn)。
智能體的任務是在虛擬環(huán)境中完成諸如采集物品、導航等任務。評估框架負責判斷生成視頻能否有效引導智能體執(zhí)行這些操作。
CARLA 是一個用于自動駕駛研究的仿真平臺,評估視頻生成模型在交通場景中的表現(xiàn)。
研究人員通過模擬復雜的城市路況、行人交通等情景,考察模型生成的視頻能否幫助自動駕駛系統(tǒng)做出正確決策。評估指標包括路線完成度、碰撞率、違規(guī)行為等。
CALVIN 則是一個用于機器人操作的仿真環(huán)境,評估視頻生成模型能否幫助機器人完成精確的物理操作任務,如抓取物體、搬運等。
該環(huán)境的操作復雜度較高,需要生成的視頻能夠準確反映物體的位置、運動軌跡和速度變化,其評估指標包括成功率和軌跡生成質量等。
在顯性感知評估中,研究人員使用了 HF-Embodied 數(shù)據(jù)集,并訓練了一個基于人類偏好反饋(Human Preference Evaluator)的評估器,通過人類反饋對生成視頻進行了打分。
圖 | 顯性感知評估概述(來源:arXiv)
在顯性感知評估中:
上半部分是指令提示生成。研究人員使用來自互聯(lián)網的大量視頻字幕和預定義的體現(xiàn)評估維度。它們經過了 GPT 擴展并由人工驗證,以創(chuàng)建相應的任務指令提示列表,用于數(shù)據(jù)生成和評估。
下半部分是 HF-Embodied 數(shù)據(jù)集生成。使用了大量帶有字幕的互聯(lián)網具身視頻訓練數(shù)據(jù)生成模型。然后根據(jù)相應的任務指令提示列表,將細粒度的人工反饋注釋應用于視頻上,涵蓋多個體現(xiàn)維度。
在隱性操作評估中,研究人員通過將生成的視頻轉換為控制信號,并觀察其在各種閉環(huán)具體任務中的表現(xiàn)來隱性評估模擬器的能力。
圖 | 隱性操作評估概述(來源:arXiv)
在隱性操作評估中:
不同場景下的具身任務被分解為可執(zhí)行的子任務。視頻生成模型根據(jù)當前指令和實時觀察生成相應的預測視頻。使用預先訓練的 IDM 或基于目標的策略,代理執(zhí)行生成的動作序列。
在固定的時間步長之后,通過再次從視頻生成模型中采樣來刷新預測視頻,并重復此過程。最后,通過模擬環(huán)境中的監(jiān)視器獲得各種具身任務的成功率。
實驗結果表明,該評估器在判斷視頻的視覺質量和物理一致性方面,表現(xiàn)大多優(yōu)于傳統(tǒng)的大型語言模型(如 GPT-4o)。
圖 | 人類偏好評估器與 GPT-4o 的整體性能比較(來源:arXiv)
這些數(shù)據(jù)顯示,使用基于兩種評估方法的 WorldSimBench 框架,研究人員能夠更精確地捕捉到模型在視覺生成中的細微差異,并且能夠更好地反映人類對視頻生成的實際期望。
盡管 WorldSimBench 框架在視頻生成模型評估方面取得了進展,但其依然面臨一些挑戰(zhàn)。
比如,HF-Embodied 數(shù)據(jù)集是依賴于大規(guī)模人工標注數(shù)據(jù),而且現(xiàn)有的評估場景集中在虛擬仿真環(huán)境中,如何擴展到更多真實世界的場景仍需要繼續(xù)探索。
最后,基于整體的顯性感知評估和隱性操作評估結果,該課題組得出結論:當前的視頻生成模型仍然無法有效捕捉許多物理規(guī)則。
作者在論文最后強調,“這表明在它們成為真正的世界模擬器之前,還需要進行很多改進。”
參考資料:
https://arxiv.org/pdf/2410.18072v1
運營/排版:何晨龍