AvatarMe 可以依據(jù)任意一張人臉照片和一些面部細(xì)節(jié),生成 4K x 6K 分辨率的 3D 人臉模型。
AvatarMe 是首個(gè)能根據(jù)單一圖像生成較高分辨率 3D 人臉模型的系統(tǒng)。在未來(lái),AvatarMe 或可用于視頻會(huì)議等各個(gè) VR 應(yīng)用場(chǎng)景。
這項(xiàng)研究發(fā)表于 CVPR 2020,論文標(biāo)題為《AvatarMe:“在野外”的真實(shí)的可渲染的 3D 臉部重建(AvatarMe:Realistically Renderable 3D Facial Reconstruction “in-the-wild”)》。3D 人臉建模是計(jì)算機(jī)視覺、圖形學(xué)、機(jī)器學(xué)習(xí)領(lǐng)域的研究焦點(diǎn)之一。在過去幾年,許多研究團(tuán)隊(duì)研發(fā)了基于生成對(duì)抗性網(wǎng)絡(luò)(GAN)的 3D 人臉建模系統(tǒng)。
GAN 由一個(gè)生成網(wǎng)絡(luò)和一個(gè)判別網(wǎng)絡(luò)組成。GAN 模型的學(xué)習(xí)過程就是生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的相互博弈的過程:生成網(wǎng)絡(luò)隨機(jī)合成一張圖片,讓判別網(wǎng)絡(luò)判斷這張圖片的真假,繼而根據(jù)判別網(wǎng)絡(luò)給出的反饋不斷提高 “造假”能力,最終做到以假亂真。
但是,在依據(jù)任意人臉照片生成 3D 人臉模型方面,現(xiàn)有的解決方案普遍性能較差,生成的 3D 人臉模型分辨率較低。
倫敦帝國(guó)理工學(xué)院和初創(chuàng)公司 FaceSoft.io 的研究人員認(rèn)為,這是因?yàn)閮蓚€(gè)原因:
一方面,研究人員缺乏可用于培訓(xùn)的數(shù)據(jù);另一方面,可成功應(yīng)用于高分辨率數(shù)據(jù)的穩(wěn)健方法也比較少。
為了解決這些問題,倫敦帝國(guó)理工學(xué)院和初創(chuàng)公司 FaceSoft.io 的研發(fā)人員捕獲了一個(gè)關(guān)于面部形狀和反射率的大型數(shù)據(jù)集。
同時(shí),研究人員采用基于藝術(shù)狀態(tài)的 3D 紋理和形狀重建方法,以渲染所需的每像素分辨率和鏡面反射分量。最終,研究人員成功地優(yōu)化了 3D 人臉建模結(jié)果。
采用兩種捕獲方法收集超 200 張人臉圖像
為了建立可用于訓(xùn)練的人臉數(shù)據(jù)集,研究人員采用兩種方法收集數(shù)據(jù)。
第一種方法中,研究人員利用一個(gè)有 168 個(gè)光源的極化 LED 球泡燈和 9 臺(tái)單反相機(jī),捕獲高分辨率的孔隙級(jí)人臉反射率圖。極化 LED 球泡燈中,一半的光源是垂直極化的,另一半光源是水平極化的。兩種極化方式的光源交錯(cuò)排布。
第二種方法中,研究人員利用非極化的 LED 球泡燈進(jìn)行色彩空間分析,以捕獲解纏的紋理。相比于第一種方法,利用非極化的 LED 球泡燈只需捕獲不到一半的數(shù)據(jù),因此捕獲時(shí)間較短短。另外,由于不需要偏振片(polarizer),非極化的 LED 球泡燈設(shè)置也比較簡(jiǎn)單。
通過這兩種方法,研究人員采集到超過 200 個(gè)不同年齡和特點(diǎn)的人的孔隙級(jí)人臉反射率圖。為便于進(jìn)一步研究,研究人員將收集到的圖像引入一個(gè)標(biāo)準(zhǔn)拓?fù)浣Y(jié)構(gòu)中,建立人臉數(shù)據(jù)庫(kù)。
研究人員將這一數(shù)據(jù)庫(kù)命名為 RealFaceDB,根據(jù)論文,與同類人臉數(shù)據(jù)庫(kù)相比,RealFaceDB 規(guī)模為最大。
關(guān)鍵詞: 倫敦 帝國(guó)理工學(xué)院 人臉建模