金磊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
人臉識別領(lǐng)域,中國隊再次傳來捷報。
全球最大規(guī)模人臉數(shù)據(jù)集發(fā)布。
首次包含數(shù)百萬ID和數(shù)億圖片。
這就是由芯翌科技與清華大學(xué)自動化系智能視覺實驗室合作,所推出的 WebFace 260M,相關(guān)研究已被CVPR 2021接收。
并且,基于其所清洗的數(shù)據(jù)集 WebFace42M,在最具挑戰(zhàn)IJBC測試集上,也已經(jīng)達(dá)到了SOTA水平。
而它所帶來的“全球之最”還不止于此。
以這項數(shù)據(jù)集為基礎(chǔ),芯翌科技在最新一期的NIST-FRVT榜單上,戴口罩人臉識別評測中斬獲世界第一。
全球之最的人臉數(shù)據(jù)集,長什么樣?
WebFace260M這個數(shù)據(jù)集,是完全基于全球互聯(lián)網(wǎng)公開人臉數(shù)據(jù)。
它的問世,一舉打破了此前人臉數(shù)據(jù)集的規(guī)模:
不僅規(guī)模最大,也是首次在人臉I(yè)D數(shù)目和圖片數(shù),分別達(dá)到了400萬和2.6億的規(guī)模。
此外,研究人員還提出了基于自訓(xùn)練全自動迭代的清洗流程 (Cleaning Automatically by Self-Training, CAST)。這種方法的靈感來自于對互聯(lián)網(wǎng)人臉數(shù)據(jù)的觀察和分析。
WebFace260M數(shù)據(jù)提供了粗糙的分類,可以基于此作為清洗算法的初始結(jié)構(gòu)。另外,研究人員發(fā)現(xiàn),在大規(guī)模含噪聲人臉數(shù)據(jù)清洗中,嵌入特征顯得十分重要,而這個特征可以通過同時迭代數(shù)據(jù)和模型得到增強(qiáng)。因此,整個清洗流程如下圖所示:
首先,利用名為MS1M的公開數(shù)據(jù)集訓(xùn)練一個“教師模型”,并對原始WebFace260M進(jìn)行清洗。
其次,利用一個“學(xué)生模型”,在上一步清洗過的圖像上進(jìn)行訓(xùn)練。
最后,讓“學(xué)生模型”切換為“教師模型”,并進(jìn)行迭代,直到獲得高質(zhì)量的WebFace42M。
通過這種方式,在對WebFace260M進(jìn)行清洗操作后,便得到了WebFace42M。
據(jù)介紹,它是目前全球規(guī)模最大、可直接用于訓(xùn)練的干凈人臉數(shù)據(jù)集:
包含200萬ID、4200萬圖片。
關(guān)于WebFace260M和WebFace42M的“世界之最”,一張表格的數(shù)據(jù)對比,便可一目了然:
同時,針對目前人臉識別的評測問題,研究人員發(fā)布了更貼近實際應(yīng)用的“時間受限人臉識別評測準(zhǔn)則”-FRUITS (Face Recognition Under Inference Time conStraint),和分布更廣泛、更具挑戰(zhàn)性、分類更細(xì)致的人臉測試集,這將推動人臉識別評測更靠近真實場景。
同時,研究人員將持續(xù)維護(hù)、迭代和升級該測試集以及評測系統(tǒng),持續(xù)助力行業(yè)技術(shù)發(fā)展。
這樣的數(shù)據(jù)集,好用嗎?
對于這個問題,答案是肯定,而且是得到了非常專業(yè)的實踐和認(rèn)可的那種。
以WebFace42M為例,它能夠在目前公開的、最具挑戰(zhàn)性的IJBC測試集上,達(dá)到新的SOTA,相對錯誤率還降低了40%。
除此之外,有一個叫做NIST-FRVT的比賽,是由美國國家標(biāo)準(zhǔn)與技術(shù)研究院主辦,素來有著“人臉識別黃金賽事”的別稱。
因為它具有測評集非對外公開、提交頻率嚴(yán)格限制、計算時間嚴(yán)格限制等諸多嚴(yán)苛要求,所以可以稱得上是全球標(biāo)準(zhǔn)最嚴(yán)、最具權(quán)威的人臉識別算法評測。
那么當(dāng)WebFace42M的數(shù)據(jù),遇到如此棘手的賽事,又會擦出怎樣的火花呢?
早在去年10月份,僅用WebFace42M的數(shù)據(jù),芯翌科技便在NIST-FRVT的榜單上取得了前三名的成績。
而在剛剛最新一期的NIST-FRVT榜單上,以WebFace42M為基礎(chǔ),在“戴口罩人臉識別評測”中又一次創(chuàng)造了“世界之最”奪得比賽冠軍。
而且從數(shù)據(jù)中不難看出,與第二名的成績可以說是兩個量級。
除此之外,在1:1人臉識別評測中,也取得了綜合排名世界前三的成績。
為什么要做這樣的數(shù)據(jù)集?
人臉識別,這項技術(shù)可以說是真的火。
火到已經(jīng)步入人們?nèi)粘I,打卡、開門禁、解鎖手機(jī)等等,都成了它大展拳腳的地方。
也正因如此,學(xué)術(shù)、工業(yè)界的科研工作者,在人臉識別的精度和速度上,形成了競相追逐的狀態(tài)。
而據(jù)研究表明,人臉數(shù)據(jù)集對于上述的影響是最大的。特別是在目前以深度學(xué)習(xí)為核心的人工智能研發(fā)模式下,軟件開發(fā)會逐漸從傳統(tǒng)的軟件1.0,過渡到以數(shù)據(jù)為核心的“數(shù)據(jù)即代碼,模型即軟件”的軟件2.0時代。
然而在數(shù)據(jù)集這塊,目前的現(xiàn)狀卻是:
公開數(shù)據(jù)規(guī)模和實際人臉識別系統(tǒng)所需數(shù)據(jù)規(guī)模,差距過大。
怎么說?
例如在WebFace260M發(fā)布之前,公開的數(shù)據(jù)規(guī)模都是較小,此前規(guī)模最大的就是MegaFace2和MS1M。
MegaFace2擁有67.2萬ID和470萬圖片,MS1M擁有10萬 ID和1000萬圖片。
如此規(guī)模的公開數(shù)據(jù),對于科研人員來說,是遠(yuǎn)遠(yuǎn)無法滿足實際人臉識別系統(tǒng)的數(shù)據(jù)需求。
同時這也只是限制人臉識別技術(shù)發(fā)展的瓶頸之一,評測準(zhǔn)則和測試集也是重要因素。
目前公開的人臉識別評測集,包括LFW、CFP、AgeDB、RFW、MegaFace、IJB系列等,在精度上基本已經(jīng)比較飽和。
同時,還存在不同場景下表現(xiàn)不夠細(xì)致的情況。
因此,WebFace260M和WebFace42M以及相關(guān)Benchmark的推出,在一定程度上可以說是拉近了公開數(shù)據(jù)集規(guī)模與實際應(yīng)用產(chǎn)業(yè)界的這條鴻溝,進(jìn)一步推動以深度學(xué)習(xí)為核心的人臉識別相關(guān)技術(shù)的進(jìn)步,促進(jìn)智能化行業(yè)的繁榮發(fā)展。
而比起規(guī)模的上突破,更大的意義應(yīng)該在于“科技向善”、“數(shù)據(jù)生態(tài)”。
經(jīng)過過去幾年的發(fā)展,人臉識別以及人工智能技術(shù)取得了巨大的進(jìn)步,也產(chǎn)生了顯著的社會經(jīng)濟(jì)價值,但是也出現(xiàn)了很多由于技術(shù)發(fā)展帶來的社會問題。
團(tuán)隊希望通過這個數(shù)據(jù)集的建立和相關(guān)工作,和產(chǎn)業(yè)界以及社會各界一起,構(gòu)建人臉識別測試和應(yīng)用標(biāo)準(zhǔn),規(guī)范人臉識別應(yīng)用市場,治理人臉識別應(yīng)用亂象,科技向善,凸顯人工智能技術(shù)的價值和溫度。
更進(jìn)一步來講,在現(xiàn)今數(shù)字經(jīng)濟(jì)和智能化高速發(fā)展的當(dāng)下,數(shù)字資源已然成為像水、電一樣的必需品;同時又像石油一般的寶貴,需要有規(guī)劃地去生產(chǎn)、使用、分享和交易等。
但現(xiàn)在目前的狀況是,國內(nèi)外普遍對此的重視程度不夠,具體而言包括行業(yè)規(guī)范不標(biāo)準(zhǔn)、分享程度不足,也沒有長期的規(guī)劃,由此便反過來抑制了數(shù)字經(jīng)濟(jì)和智能化的發(fā)展進(jìn)程。
目前國家層面非常鼓勵和重視數(shù)據(jù)集的創(chuàng)新和規(guī)范,清華大學(xué)和芯翌科技的研究人員也積極響應(yīng)國家的號召和政策的要求,希望和國家、政府機(jī)構(gòu)、學(xué)術(shù)界以及產(chǎn)業(yè)界一起,打造智能化時代開放、共享、安全的數(shù)據(jù)生態(tài)。