劃重點
01國內(nèi)首個UI大模型Motiff妙多通過高質(zhì)量專業(yè)數(shù)據(jù)和個性化模型架構(gòu),實現(xiàn)了效果和能力上的超越。
02為此,Motiff妙多通過提高知識密度、生成合成數(shù)據(jù),構(gòu)建了一批優(yōu)質(zhì)UI數(shù)據(jù),并個性化調(diào)整模型架構(gòu)。
03與此同時,Motiff妙多采用切圖策略,保持長寬比和精準定位,提升模型在UI領(lǐng)域的表現(xiàn)。
04基于自研大模型,Motiff妙多開創(chuàng)了AI復(fù)制、AI設(shè)計系統(tǒng)等功能,使AI生成UI功能迅速躋身行業(yè)前列。
05未來,Motiff妙多將繼續(xù)迭代大模型技術(shù),為設(shè)計師提供更高效、更智能的設(shè)計工具,推動UI設(shè)計行業(yè)變革。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
隨著大模型加速應(yīng)用落地,提高模型訓(xùn)練效率成為更受關(guān)注的議題。在10 月 18 日召開的 2024 QCon 大會上,Motiff 妙多 AI 負責(zé)人趙薇分享了國內(nèi)首個 UI 大模型的開發(fā)經(jīng)歷。趙薇介紹,相比于常見的“大力出奇跡”做法,Motiff 妙多選擇了“四兩撥千斤”。憑借高質(zhì)量的專業(yè)數(shù)據(jù)和個性化的模型架構(gòu),Motiff 妙多大模型在效果和能力上超越了 GPT-4o 和蘋果的 Ferret UI,并追平了訓(xùn)練數(shù)據(jù)多 40 倍的 Google ScreenAI 大模型。
(Motiff 妙多 AI 負責(zé)人趙薇 QCon 演講現(xiàn)場)
Motiff 妙多大模型在數(shù)據(jù)、模型架構(gòu)和訓(xùn)練方法上進行了多次創(chuàng)新。UI 領(lǐng)域的訓(xùn)練數(shù)據(jù)比通用領(lǐng)域少一個量級,Motiff 妙多通過提高知識密度、生成合成數(shù)據(jù),構(gòu)建了一批優(yōu)質(zhì) UI 數(shù)據(jù),并根據(jù) UI 領(lǐng)域需求個性化調(diào)整模型架構(gòu)。這些調(diào)整使得 Motiff 妙多大模型適配 UI 領(lǐng)域特點,具備“支持輸入高清”、“保持圖片長寬比”和“精準定位”三大優(yōu)勢。
“基于自研大模型,我們能以較低成本快速孵化 AI 應(yīng)用。”趙薇表示,自研大模型加持下,Motiff 妙多開創(chuàng)了 AI 復(fù)制、 AI 設(shè)計系統(tǒng)等功能,AI 生成 UI 功能也迅速躋身行業(yè)前列。Motiff 妙多大模型不失為一個典型的樣本:當(dāng)通用大模型在專業(yè)領(lǐng)域“失靈”時,AI 應(yīng)用企業(yè)如何通過自研領(lǐng)域大模型助力應(yīng)用創(chuàng)新?
大模型對齊訓(xùn)練“少即是多”,數(shù)據(jù)質(zhì)量是關(guān)鍵當(dāng)前,通用大模型在處理復(fù)雜任務(wù)和理解多種數(shù)據(jù)方面表現(xiàn)出色,但在特定領(lǐng)域依然存在明顯的局限性。例如,GPT-4 在 UI 領(lǐng)域錯誤率超過 70%,理解和生成用戶界面表現(xiàn)不佳。作為 AI 時代設(shè)計工具,Motiff 妙多需要構(gòu)建一個“UI知識體系完整”和“UI技能豐富”的專業(yè)大模型。
構(gòu)建大模型的首要問題是數(shù)據(jù)。為克服UI 領(lǐng)域高質(zhì)量圖片數(shù)據(jù)量較孝數(shù)據(jù)任務(wù)不夠豐富的挑戰(zhàn),Motiff 妙多通過增加知識密度和加入基于專家模型生成的合成數(shù)據(jù),構(gòu)建了一批高質(zhì)量、具有專業(yè)知識的 UI 數(shù)據(jù)。
“數(shù)據(jù)量少并不是問題,高密度才是關(guān)鍵。”趙薇表示,在領(lǐng)域遷移中,不用海量的 UI 領(lǐng)域?qū)R數(shù)據(jù),依然可以實現(xiàn)有效對齊。
如何提高信息密度?Motiff 妙多對 UI 數(shù)據(jù)進行了多維度的內(nèi)容分析和層次結(jié)構(gòu)描述。對每張UI圖片,Motiff 妙多從布局、組件、功能、視覺效果和設(shè)計風(fēng)格等多維度深入分析,并增加了 UI 特有的結(jié)構(gòu)和定位知識。在隨機采樣的 1 萬條數(shù)據(jù)中,每張圖片的描述 token 數(shù)量從 20 增長到 628,信息密度提升了 30.4 倍。
在生成合成數(shù)據(jù)過程中,Motiff 妙多引入了多個專家模型,將大量的專家知識提煉到合成數(shù)據(jù)中。以圖標描述數(shù)據(jù)的合成為例,在整合人類專家知識后,Motiff 妙多的數(shù)據(jù)更加細粒度且情境相關(guān)。比如,針對“愛心”圖標,Google 的 ScreenAI 大模型只能描述圖標類別,而 Motiff 妙多大模型能夠生成具體的功能描述,如“收藏按鈕”。
(通過長期積累的專家模型,為合成數(shù)據(jù)注入大量專業(yè)知識)
豐富多樣、接近真實世界的數(shù)據(jù)使得訓(xùn)練出的模型具備解決復(fù)雜問題的能力。在五個行業(yè)公認的 UI 能力基準測試集中,Motiff 妙多大模型的各項指標均超過了 GPT-4o 和蘋果的 Ferret UI,多項指標追平谷歌的 ScreenAI ,并在 Screen2Words(界面描述與推斷)和 Widget Captioning(部件描述)兩大指標上超越了 ScreenAI 。要知道,ScreenAI 在訓(xùn)練時用了近 4 億條訓(xùn)練數(shù)據(jù),相比之下,Motiff 妙多大模型所用的訓(xùn)練數(shù)據(jù)不到其 2%。
強化領(lǐng)域模型優(yōu)勢,快速孵化 AI 功能在完成數(shù)據(jù)收集與構(gòu)建后,便進入模型基座與訓(xùn)練階段。多模態(tài)大模型在近年來快速發(fā)展,但大多缺乏對 UI 領(lǐng)域的特殊適配。趙薇指出,通用模型在 UI 領(lǐng)域容易出現(xiàn)文字識別幻覺和定位偏移,這讓Motiff 妙多團隊更加重視視覺編碼器和位置感知訓(xùn)練。
通用視覺編碼器在處理高分辨率和復(fù)雜布局時有明顯的缺陷,容易導(dǎo)致信息丟失。因此,Motiff 妙多采用切圖策略,將高清圖片切成多張小圖送入模型,確保信息完整并提升細節(jié)敏感度。
(Motiff 妙多大模型架構(gòu))
Motiff 妙多通過保持長寬比和精準定位,進一步增強模型表現(xiàn)。通用大模型通常忽視了精準定位的能力,而 Motiff 妙多通過補充切割后小圖的位置信息,提升了模型的位置感知。
通過改進模型基座,Motiff 妙多大模型更適配 UI 領(lǐng)域任務(wù),具備 “支持輸入高清”、“保持圖片長寬比”、“精準定位” 三大優(yōu)勢,能更好地理解和處理 UI 設(shè)計中的復(fù)雜元素。
“基于大模型的 AI 應(yīng)用有啟動成本低、算法建模簡單、任務(wù)更加復(fù)雜等特點。”趙薇說。以 Motiff 妙多大模型為底座,團隊迅速開創(chuàng)和升級了 AI 設(shè)計系統(tǒng)、AI 生成 UI 等功能。
以Motiff 妙多首創(chuàng)的 AI 設(shè)計系統(tǒng)功能為例,該功能能精確定位并理解設(shè)計稿中的所有設(shè)計組件。對于難以區(qū)分的組件(如button 和 tag),Motiff 妙多大模型都能準確識別,準確率提升至 95% 以上。
趙薇稱,Motiff 妙多計劃在未來持續(xù)迭代大模型技術(shù)。實踐證明,AI 在 UI 設(shè)計中的應(yīng)用潛力巨大,Motiff 妙多將致力于 AI 與 UI 設(shè)計的深度融合,為設(shè)計師提供更高效、更智能的設(shè)計工具,推動 UI 設(shè)計行業(yè)變革。