展會信息港展會大全

追平Google ScreenAI,國內(nèi)首個UI大模型是如何煉成的?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-22 07:55:15   瀏覽:2918次  

導(dǎo)讀:劃重點 01國內(nèi)首個UI大模型Motiff妙多通過高質(zhì)量專業(yè)數(shù)據(jù)和個性化模型架構(gòu),實現(xiàn)了效果和能力上的超越。 02為此,Motiff妙多通過提高知識密度、生成合成數(shù)據(jù),構(gòu)建了一批優(yōu)質(zhì)UI數(shù)據(jù),并個性化調(diào)整模型架構(gòu)。 03與此同時,Motiff妙多采用切圖策略,保持長寬比...

劃重點

01國內(nèi)首個UI大模型Motiff妙多通過高質(zhì)量專業(yè)數(shù)據(jù)和個性化模型架構(gòu),實現(xiàn)了效果和能力上的超越。

02為此,Motiff妙多通過提高知識密度、生成合成數(shù)據(jù),構(gòu)建了一批優(yōu)質(zhì)UI數(shù)據(jù),并個性化調(diào)整模型架構(gòu)。

03與此同時,Motiff妙多采用切圖策略,保持長寬比和精準定位,提升模型在UI領(lǐng)域的表現(xiàn)。

04基于自研大模型,Motiff妙多開創(chuàng)了AI復(fù)制、AI設(shè)計系統(tǒng)等功能,使AI生成UI功能迅速躋身行業(yè)前列。

05未來,Motiff妙多將繼續(xù)迭代大模型技術(shù),為設(shè)計師提供更高效、更智能的設(shè)計工具,推動UI設(shè)計行業(yè)變革。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

隨著大模型加速應(yīng)用落地,提高模型訓(xùn)練效率成為更受關(guān)注的議題。在10 月 18 日召開的 2024 QCon 大會上,Motiff 妙多 AI 負責(zé)人趙薇分享了國內(nèi)首個 UI 大模型的開發(fā)經(jīng)歷。趙薇介紹,相比于常見的“大力出奇跡”做法,Motiff 妙多選擇了“四兩撥千斤”。憑借高質(zhì)量的專業(yè)數(shù)據(jù)和個性化的模型架構(gòu),Motiff 妙多大模型在效果和能力上超越了 GPT-4o 和蘋果的 Ferret UI,并追平了訓(xùn)練數(shù)據(jù)多 40 倍的 Google ScreenAI 大模型。

追平Google ScreenAI,國內(nèi)首個UI大模型是如何煉成的?

(Motiff 妙多 AI 負責(zé)人趙薇 QCon 演講現(xiàn)場)

Motiff 妙多大模型在數(shù)據(jù)、模型架構(gòu)和訓(xùn)練方法上進行了多次創(chuàng)新。UI 領(lǐng)域的訓(xùn)練數(shù)據(jù)比通用領(lǐng)域少一個量級,Motiff 妙多通過提高知識密度、生成合成數(shù)據(jù),構(gòu)建了一批優(yōu)質(zhì) UI 數(shù)據(jù),并根據(jù) UI 領(lǐng)域需求個性化調(diào)整模型架構(gòu)。這些調(diào)整使得 Motiff 妙多大模型適配 UI 領(lǐng)域特點,具備“支持輸入高清”、“保持圖片長寬比”和“精準定位”三大優(yōu)勢。

“基于自研大模型,我們能以較低成本快速孵化 AI 應(yīng)用。”趙薇表示,自研大模型加持下,Motiff 妙多開創(chuàng)了 AI 復(fù)制、 AI 設(shè)計系統(tǒng)等功能,AI 生成 UI 功能也迅速躋身行業(yè)前列。Motiff 妙多大模型不失為一個典型的樣本:當(dāng)通用大模型在專業(yè)領(lǐng)域“失靈”時,AI 應(yīng)用企業(yè)如何通過自研領(lǐng)域大模型助力應(yīng)用創(chuàng)新?

大模型對齊訓(xùn)練“少即是多”,數(shù)據(jù)質(zhì)量是關(guān)鍵當(dāng)前,通用大模型在處理復(fù)雜任務(wù)和理解多種數(shù)據(jù)方面表現(xiàn)出色,但在特定領(lǐng)域依然存在明顯的局限性。例如,GPT-4 在 UI 領(lǐng)域錯誤率超過 70%,理解和生成用戶界面表現(xiàn)不佳。作為 AI 時代設(shè)計工具,Motiff 妙多需要構(gòu)建一個“UI知識體系完整”和“UI技能豐富”的專業(yè)大模型。

構(gòu)建大模型的首要問題是數(shù)據(jù)。為克服UI 領(lǐng)域高質(zhì)量圖片數(shù)據(jù)量較孝數(shù)據(jù)任務(wù)不夠豐富的挑戰(zhàn),Motiff 妙多通過增加知識密度和加入基于專家模型生成的合成數(shù)據(jù),構(gòu)建了一批高質(zhì)量、具有專業(yè)知識的 UI 數(shù)據(jù)。

“數(shù)據(jù)量少并不是問題,高密度才是關(guān)鍵。”趙薇表示,在領(lǐng)域遷移中,不用海量的 UI 領(lǐng)域?qū)R數(shù)據(jù),依然可以實現(xiàn)有效對齊。

如何提高信息密度?Motiff 妙多對 UI 數(shù)據(jù)進行了多維度的內(nèi)容分析和層次結(jié)構(gòu)描述。對每張UI圖片,Motiff 妙多從布局、組件、功能、視覺效果和設(shè)計風(fēng)格等多維度深入分析,并增加了 UI 特有的結(jié)構(gòu)和定位知識。在隨機采樣的 1 萬條數(shù)據(jù)中,每張圖片的描述 token 數(shù)量從 20 增長到 628,信息密度提升了 30.4 倍。

追平Google ScreenAI,國內(nèi)首個UI大模型是如何煉成的?

在生成合成數(shù)據(jù)過程中,Motiff 妙多引入了多個專家模型,將大量的專家知識提煉到合成數(shù)據(jù)中。以圖標描述數(shù)據(jù)的合成為例,在整合人類專家知識后,Motiff 妙多的數(shù)據(jù)更加細粒度且情境相關(guān)。比如,針對“愛心”圖標,Google 的 ScreenAI 大模型只能描述圖標類別,而 Motiff 妙多大模型能夠生成具體的功能描述,如“收藏按鈕”。

追平Google ScreenAI,國內(nèi)首個UI大模型是如何煉成的?

(通過長期積累的專家模型,為合成數(shù)據(jù)注入大量專業(yè)知識)

豐富多樣、接近真實世界的數(shù)據(jù)使得訓(xùn)練出的模型具備解決復(fù)雜問題的能力。在五個行業(yè)公認的 UI 能力基準測試集中,Motiff 妙多大模型的各項指標均超過了 GPT-4o 和蘋果的 Ferret UI,多項指標追平谷歌的 ScreenAI ,并在 Screen2Words(界面描述與推斷)和 Widget Captioning(部件描述)兩大指標上超越了 ScreenAI 。要知道,ScreenAI 在訓(xùn)練時用了近 4 億條訓(xùn)練數(shù)據(jù),相比之下,Motiff 妙多大模型所用的訓(xùn)練數(shù)據(jù)不到其 2%。

強化領(lǐng)域模型優(yōu)勢,快速孵化 AI 功能在完成數(shù)據(jù)收集與構(gòu)建后,便進入模型基座與訓(xùn)練階段。多模態(tài)大模型在近年來快速發(fā)展,但大多缺乏對 UI 領(lǐng)域的特殊適配。趙薇指出,通用模型在 UI 領(lǐng)域容易出現(xiàn)文字識別幻覺和定位偏移,這讓Motiff 妙多團隊更加重視視覺編碼器和位置感知訓(xùn)練。

通用視覺編碼器在處理高分辨率和復(fù)雜布局時有明顯的缺陷,容易導(dǎo)致信息丟失。因此,Motiff 妙多采用切圖策略,將高清圖片切成多張小圖送入模型,確保信息完整并提升細節(jié)敏感度。

追平Google ScreenAI,國內(nèi)首個UI大模型是如何煉成的?

(Motiff 妙多大模型架構(gòu))

Motiff 妙多通過保持長寬比和精準定位,進一步增強模型表現(xiàn)。通用大模型通常忽視了精準定位的能力,而 Motiff 妙多通過補充切割后小圖的位置信息,提升了模型的位置感知。

通過改進模型基座,Motiff 妙多大模型更適配 UI 領(lǐng)域任務(wù),具備 “支持輸入高清”、“保持圖片長寬比”、“精準定位” 三大優(yōu)勢,能更好地理解和處理 UI 設(shè)計中的復(fù)雜元素。

“基于大模型的 AI 應(yīng)用有啟動成本低、算法建模簡單、任務(wù)更加復(fù)雜等特點。”趙薇說。以 Motiff 妙多大模型為底座,團隊迅速開創(chuàng)和升級了 AI 設(shè)計系統(tǒng)、AI 生成 UI 等功能。

追平Google ScreenAI,國內(nèi)首個UI大模型是如何煉成的?

以Motiff 妙多首創(chuàng)的 AI 設(shè)計系統(tǒng)功能為例,該功能能精確定位并理解設(shè)計稿中的所有設(shè)計組件。對于難以區(qū)分的組件(如button 和 tag),Motiff 妙多大模型都能準確識別,準確率提升至 95% 以上。

趙薇稱,Motiff 妙多計劃在未來持續(xù)迭代大模型技術(shù)。實踐證明,AI 在 UI 設(shè)計中的應(yīng)用潛力巨大,Motiff 妙多將致力于 AI 與 UI 設(shè)計的深度融合,為設(shè)計師提供更高效、更智能的設(shè)計工具,推動 UI 設(shè)計行業(yè)變革。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港