近日,國際計(jì)算機(jī)視覺頂會(huì)CVPR 2024在西雅圖召開,阿里共34篇論文被收錄,其中有6篇入選Highlight和Oral Paper,被收錄論文研究方向涵蓋多模態(tài)模型、圖像編輯及可控視頻生成等前沿領(lǐng)域。早些時(shí)候火遍國內(nèi)外的Animate Anyone、EMO、Facechain等模型也在會(huì)議現(xiàn)場(chǎng)亮相,并吸引了大量參會(huì)人員的關(guān)注與體驗(yàn)。
CVPR是計(jì)算機(jī)視覺領(lǐng)域最頂級(jí)的學(xué)術(shù)會(huì)議,每年都有大量企業(yè)、研究機(jī)構(gòu)和高校參會(huì),過去十幾年曾誕生了ResNet、ImageNet等極具影響力的研究成果。據(jù)統(tǒng)計(jì),今年CVPR共提交了 11532 份論文,最終2719 篇被接收,接受率只有23.6%,為近4年最低,而Highlight和Oral的占比僅為11.9%和3.3%。
在阿里通義實(shí)驗(yàn)室的Highlight論文《SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing 》中,研究團(tuán)隊(duì)提出了一種全新的圖像擴(kuò)散生成框架 SCEdit,它引入了全新的SC-Tuner的輕量級(jí)微調(diào)模塊,通過對(duì)原始模型進(jìn)行細(xì)微的調(diào)整,大幅度降低了訓(xùn)練參數(shù)量、內(nèi)存消耗和計(jì)算開銷。實(shí)驗(yàn)結(jié)果顯示,SCEdit可快速遷移到特定的生成場(chǎng)景中,相比LoRA節(jié)省30%-50%的訓(xùn)練顯存開銷,可應(yīng)用于邊緣圖、深度圖、分割圖、姿態(tài)、顏色圖、圖像補(bǔ)全等條件生成任務(wù)。目前相關(guān)代碼及微調(diào)模型均已開源。
會(huì)議現(xiàn)場(chǎng),阿里首次在海外展示了基于Animate Anyone和EMO打造的大模型應(yīng)用,吸引了來自全球各地參會(huì)者體驗(yàn)。過去半年,這兩個(gè)項(xiàng)目在Github上累計(jì)獲得超20k的Star,是視頻生成領(lǐng)域的標(biāo)桿項(xiàng)目。
據(jù)介紹,目前通義大模型家族已擁有文本生成、圖像生成、視頻生成、圖像理解等全模態(tài)能力。不久前開源的Qwen2-72B是全球性能最強(qiáng)的開源模型,性能超過美國最強(qiáng)的開源模型Llama3-70B,也超過文心4.0、豆包pro、混元pro等眾多中國閉源大模型。