當(dāng)前位置：人工智能實驗室> 模式識別 > 全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布
來源：互聯(lián)網(wǎng) 發(fā)布日期：2021-03-16 14:16:48 瀏覽：101374次

導(dǎo)讀：金磊發(fā)自凹非寺量子位報道 | 公眾號 QbitAI 人臉識別領(lǐng)域，中國隊再次傳來捷報。全球最大規(guī)模人臉數(shù)據(jù)集發(fā)布。首次包含數(shù)百萬ID和數(shù)億圖片。這就是由芯翌科技與清華大學(xué)自動化系智能視覺實驗室合作，所推出的 WebFace 260M，相關(guān)研究已被CVPR 2021接...

金磊發(fā)自凹非寺

量子位報道 | 公眾號 QbitAI

人臉識別領(lǐng)域，中國隊再次傳來捷報。

全球最大規(guī)模人臉數(shù)據(jù)集發(fā)布。

首次包含數(shù)百萬ID和數(shù)億圖片。

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

這就是由芯翌科技與清華大學(xué)自動化系智能視覺實驗室合作，所推出的 WebFace 260M，相關(guān)研究已被CVPR 2021接收。

并且，基于其所清洗的數(shù)據(jù)集 WebFace42M，在最具挑戰(zhàn)IJBC測試集上，也已經(jīng)達(dá)到了SOTA水平。

而它所帶來的“全球之最”還不止于此。

以這項數(shù)據(jù)集為基礎(chǔ)，芯翌科技在最新一期的NIST-FRVT榜單上，戴口罩人臉識別評測中斬獲世界第一。

全球之最的人臉數(shù)據(jù)集，長什么樣？

WebFace260M這個數(shù)據(jù)集，是完全基于全球互聯(lián)網(wǎng)公開人臉數(shù)據(jù)。

它的問世，一舉打破了此前人臉數(shù)據(jù)集的規(guī)模：

不僅規(guī)模最大，也是首次在人臉I(yè)D數(shù)目和圖片數(shù)，分別達(dá)到了400萬和2.6億的規(guī)模。

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

此外，研究人員還提出了基于自訓(xùn)練全自動迭代的清洗流程（Cleaning Automatically by Self-Training, CAST）。這種方法的靈感來自于對互聯(lián)網(wǎng)人臉數(shù)據(jù)的觀察和分析。

WebFace260M數(shù)據(jù)提供了粗糙的分類，可以基于此作為清洗算法的初始結(jié)構(gòu)。另外，研究人員發(fā)現(xiàn)，在大規(guī)模含噪聲人臉數(shù)據(jù)清洗中，嵌入特征顯得十分重要，而這個特征可以通過同時迭代數(shù)據(jù)和模型得到增強(qiáng)。因此，整個清洗流程如下圖所示：

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

首先，利用名為MS1M的公開數(shù)據(jù)集訓(xùn)練一個“教師模型”，并對原始WebFace260M進(jìn)行清洗。

其次，利用一個“學(xué)生模型”，在上一步清洗過的圖像上進(jìn)行訓(xùn)練。

最后，讓“學(xué)生模型”切換為“教師模型”，并進(jìn)行迭代，直到獲得高質(zhì)量的WebFace42M。

通過這種方式，在對WebFace260M進(jìn)行清洗操作后，便得到了WebFace42M。

據(jù)介紹，它是目前全球規(guī)模最大、可直接用于訓(xùn)練的干凈人臉數(shù)據(jù)集：

包含200萬ID、4200萬圖片。

關(guān)于WebFace260M和WebFace42M的“世界之最”，一張表格的數(shù)據(jù)對比，便可一目了然：

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

同時，針對目前人臉識別的評測問題，研究人員發(fā)布了更貼近實際應(yīng)用的“時間受限人臉識別評測準(zhǔn)則”-FRUITS (Face Recognition Under Inference Time conStraint)，和分布更廣泛、更具挑戰(zhàn)性、分類更細(xì)致的人臉測試集，這將推動人臉識別評測更靠近真實場景。

同時，研究人員將持續(xù)維護(hù)、迭代和升級該測試集以及評測系統(tǒng)，持續(xù)助力行業(yè)技術(shù)發(fā)展。

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

這樣的數(shù)據(jù)集，好用嗎？

對于這個問題，答案是肯定，而且是得到了非常專業(yè)的實踐和認(rèn)可的那種。

以WebFace42M為例，它能夠在目前公開的、最具挑戰(zhàn)性的IJBC測試集上，達(dá)到新的SOTA，相對錯誤率還降低了40%。

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

除此之外，有一個叫做NIST-FRVT的比賽，是由美國國家標(biāo)準(zhǔn)與技術(shù)研究院主辦，素來有著“人臉識別黃金賽事”的別稱。

因為它具有測評集非對外公開、提交頻率嚴(yán)格限制、計算時間嚴(yán)格限制等諸多嚴(yán)苛要求，所以可以稱得上是全球標(biāo)準(zhǔn)最嚴(yán)、最具權(quán)威的人臉識別算法評測。

那么當(dāng)WebFace42M的數(shù)據(jù)，遇到如此棘手的賽事，又會擦出怎樣的火花呢？

早在去年10月份，僅用WebFace42M的數(shù)據(jù)，芯翌科技便在NIST-FRVT的榜單上取得了前三名的成績。

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

而在剛剛最新一期的NIST-FRVT榜單上，以WebFace42M為基礎(chǔ)，在“戴口罩人臉識別評測”中又一次創(chuàng)造了“世界之最”奪得比賽冠軍。

而且從數(shù)據(jù)中不難看出，與第二名的成績可以說是兩個量級。

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

除此之外，在1:1人臉識別評測中，也取得了綜合排名世界前三的成績。

為什么要做這樣的數(shù)據(jù)集？

人臉識別，這項技術(shù)可以說是真的火。

火到已經(jīng)步入人們?nèi)粘Ｉ�，打卡、開門禁、解鎖手機(jī)等等，都成了它大展拳腳的地方。

也正因如此，學(xué)術(shù)、工業(yè)界的科研工作者，在人臉識別的精度和速度上，形成了競相追逐的狀態(tài)。

而據(jù)研究表明，人臉數(shù)據(jù)集對于上述的影響是最大的。特別是在目前以深度學(xué)習(xí)為核心的人工智能研發(fā)模式下，軟件開發(fā)會逐漸從傳統(tǒng)的軟件1.0，過渡到以數(shù)據(jù)為核心的“數(shù)據(jù)即代碼，模型即軟件”的軟件2.0時代。

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

然而在數(shù)據(jù)集這塊，目前的現(xiàn)狀卻是：

公開數(shù)據(jù)規(guī)模和實際人臉識別系統(tǒng)所需數(shù)據(jù)規(guī)模，差距過大。

怎么說？

例如在WebFace260M發(fā)布之前，公開的數(shù)據(jù)規(guī)模都是較小，此前規(guī)模最大的就是MegaFace2和MS1M。

MegaFace2擁有67.2萬ID和470萬圖片，MS1M擁有10萬 ID和1000萬圖片。

如此規(guī)模的公開數(shù)據(jù)，對于科研人員來說，是遠(yuǎn)遠(yuǎn)無法滿足實際人臉識別系統(tǒng)的數(shù)據(jù)需求。

同時這也只是限制人臉識別技術(shù)發(fā)展的瓶頸之一，評測準(zhǔn)則和測試集也是重要因素。

目前公開的人臉識別評測集，包括LFW、CFP、AgeDB、RFW、MegaFace、IJB系列等，在精度上基本已經(jīng)比較飽和。

同時，還存在不同場景下表現(xiàn)不夠細(xì)致的情況。

因此，WebFace260M和WebFace42M以及相關(guān)Benchmark的推出，在一定程度上可以說是拉近了公開數(shù)據(jù)集規(guī)模與實際應(yīng)用產(chǎn)業(yè)界的這條鴻溝，進(jìn)一步推動以深度學(xué)習(xí)為核心的人臉識別相關(guān)技術(shù)的進(jìn)步，促進(jìn)智能化行業(yè)的繁榮發(fā)展。

而比起規(guī)模的上突破，更大的意義應(yīng)該在于“科技向善”、“數(shù)據(jù)生態(tài)”。

經(jīng)過過去幾年的發(fā)展，人臉識別以及人工智能技術(shù)取得了巨大的進(jìn)步，也產(chǎn)生了顯著的社會經(jīng)濟(jì)價值，但是也出現(xiàn)了很多由于技術(shù)發(fā)展帶來的社會問題。

團(tuán)隊希望通過這個數(shù)據(jù)集的建立和相關(guān)工作，和產(chǎn)業(yè)界以及社會各界一起，構(gòu)建人臉識別測試和應(yīng)用標(biāo)準(zhǔn)，規(guī)范人臉識別應(yīng)用市場，治理人臉識別應(yīng)用亂象，科技向善，凸顯人工智能技術(shù)的價值和溫度。

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

更進(jìn)一步來講，在現(xiàn)今數(shù)字經(jīng)濟(jì)和智能化高速發(fā)展的當(dāng)下，數(shù)字資源已然成為像水、電一樣的必需品；同時又像石油一般的寶貴，需要有規(guī)劃地去生產(chǎn)、使用、分享和交易等。

但現(xiàn)在目前的狀況是，國內(nèi)外普遍對此的重視程度不夠，具體而言包括行業(yè)規(guī)范不標(biāo)準(zhǔn)、分享程度不足，也沒有長期的規(guī)劃，由此便反過來抑制了數(shù)字經(jīng)濟(jì)和智能化的發(fā)展進(jìn)程。

目前國家層面非常鼓勵和重視數(shù)據(jù)集的創(chuàng)新和規(guī)范，清華大學(xué)和芯翌科技的研究人員也積極響應(yīng)國家的號召和政策的要求，希望和國家、政府機(jī)構(gòu)、學(xué)術(shù)界以及產(chǎn)業(yè)界一起，打造智能化時代開放、共享、安全的數(shù)據(jù)生態(tài)。

上一篇：科勒回應(yīng)人臉識別攝像頭：僅作到店人數(shù)統(tǒng)計，已連夜拆除

下一篇：清潔大作戰(zhàn)：掃地擦地齊上陣，清潔機(jī)器人幫你解放雙手

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布
來源：互聯(lián)網(wǎng) 發(fā)布日期：2021-03-16 14:16:48 瀏覽：101374次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布 來源：互聯(lián)網(wǎng) 發(fā)布日期：2021-03-16 14:16:48 瀏覽：101374次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

全球最大的公開人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布
來源：互聯(lián)網(wǎng) 發(fā)布日期：2021-03-16 14:16:48 瀏覽：101374次