透明摳圖問題作為摳圖問題的一種,其采用的方法和模型構(gòu)建與通常的模型有所不同,透明摳圖需要將環(huán)境光,折射率的影響納入計(jì)算,而一般的折射光圖又很難獲得,因此透明摳圖的模型在過去一直難以建立,或者說很難達(dá)到令人滿意的效果,達(dá)摩院視覺算法團(tuán)隊(duì)通過雙分支解碼器(Object Mask 獲取,Opacity 預(yù)測(cè)),顏色糾正模塊,對(duì)圖像實(shí)現(xiàn)高精度透明摳圖。
物體的摳圖問題可以定義為求解以下的公式,即給定圖像 I,求解前景顏色 F、背景顏色 B 和 Alpha matte 的線性組合:
對(duì)于透明物體而言,它展現(xiàn)在觀察者眼中的顏色是由其前景顏色,背景顏色以及環(huán)境光線經(jīng)過前景物體自我反射折射混合而成的,因此,它的公式會(huì)更加復(fù)雜一些:
Φ 表示的是環(huán)境光的影響 它是所有光線 E(w) 與反射率方程 R 乘積在所有點(diǎn)上的二重積分,求解很復(fù)雜[28],導(dǎo)致實(shí)現(xiàn)精確的透明摳圖是一個(gè)非常困難的問題。因此,現(xiàn)有透明摳圖研究的目標(biāo)也是實(shí)現(xiàn)視覺感受“真實(shí)”的摳圖而已,并非追求完全真實(shí)的摳圖結(jié)果。
SOTA 的 Matting 算法在同時(shí)提供原圖和對(duì)應(yīng) trimap 的情況下,可以的實(shí)現(xiàn)對(duì)半透物體的處理(如下圖為GCA-Matting 的效果),但 tripmap 在實(shí)際的圖像的處理中難以獲取,限制了這類算法其在業(yè)務(wù)中的使用。
TOM-Net 將透明摳圖問題視為折射流的估計(jì)問題,網(wǎng)絡(luò)支持對(duì)單圖輸入,經(jīng)過三分支的編解碼器網(wǎng)絡(luò),分別預(yù)測(cè)圖像的 Object Mask,attenuative mask,flow mask (折射流圖),并可以通過折射流信息進(jìn)一步在新的背景進(jìn)行合成。該方法的局限性在于其假設(shè)物體必須全部為無色透明物體,并且在訓(xùn)練過程中需要折射流圖作為 label, 而折射流圖在真實(shí)世界是非常難以獲取的,因此該方法的訓(xùn)練數(shù)只能依賴于圖形學(xué)合成,與真實(shí)透明圖像的分布無法一致(圖像的語義合理性存疑,例如玻璃杯在山前懸浮)。經(jīng)過我們?cè)趯?shí)際數(shù)據(jù)上的測(cè)試,該方法在實(shí)際圖像的表現(xiàn)并不理想。
Segmenting Transparent Objects in the Wild 提出了基于語義分支和邊緣分支結(jié)構(gòu)的真實(shí)世界透明物體分割網(wǎng)絡(luò),通過邊界注意力模塊(Boundary Attention Modeule)增強(qiáng)對(duì)透明物體的分割精度,并發(fā)布了目前數(shù)量大的透明物體分割標(biāo)注數(shù)據(jù)集 Trans10K。然而,文章提出的算法和發(fā)布的數(shù)據(jù)集都是處理到語義分割層面,并沒有對(duì)物體的透明度做進(jìn)一步處理。
考慮到透明摳圖問題本身難以求解,而且數(shù)據(jù)構(gòu)建也非常困難,在實(shí)際的應(yīng)用場(chǎng)景中,為保證同時(shí)保證算法的泛化能力和摳圖效果,我們對(duì)問題進(jìn)行了簡(jiǎn)化, 我們假設(shè)所需處理的物體的透明部分是無色的,且所在環(huán)境的背景顏色分布相對(duì)均勻。在這樣的條件下,背景的自發(fā)光或反射光的顏色可以認(rèn)為是全局一致的顏色,不會(huì)出現(xiàn)多種顏色疊加的情況,Φ 的估計(jì)就只是和背景顏色相關(guān)了。特別的,如果預(yù)知背景的顏色,可以通過將其作為先驗(yàn)引入 Φ 中,對(duì)結(jié)果進(jìn)行背景雜色的抑制及去除。
我們的模型輸入為單張圖像,通過編碼器網(wǎng)絡(luò)提取其深層特征。解碼器設(shè)計(jì)為兩個(gè)分支,分支一的解碼器采用在非透明物體摳圖的解碼器權(quán)重,該分支注重語義級(jí)別的分割和提取,力求完整準(zhǔn)確地獲得物體所在圖像區(qū)域,即 Object Mask。
分支二則注重對(duì)圖像物體不透明度 (Opacity) 的預(yù)測(cè)。在背景均勻的假設(shè)下,該分支預(yù)測(cè)圖像各像素與背景的相似性,相似度高則說明介質(zhì)的透明度高(如空氣,玻璃)。而分支二由于在訓(xùn)練的時(shí)候沒有進(jìn)行語義的約束,容易存在非主體區(qū)域的噪聲影響,因此,將兩者進(jìn)行融合可以將透明信息約束在主體范圍內(nèi)。融合模塊的實(shí)現(xiàn),可以將 Opacity 和 ObjectMask 進(jìn)行圖像級(jí)的像素融合,也可以將兩者進(jìn)行深度維度拼接,通過進(jìn)一步的網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。
最后,對(duì)于已知背景顏色先驗(yàn)的場(chǎng)景(如已知是綠幕),我們可以引入顏色糾正模塊,實(shí)現(xiàn)對(duì)背景透出的雜色進(jìn)行去除。對(duì)于背景顏色未知,但飽和度低的場(chǎng)景,摳圖結(jié)果也依然可用。
在已知背景顏色先驗(yàn)的情況下,可以通過顏色糾正模塊對(duì)背景透出的雜色進(jìn)行去除(左到右:實(shí)拍圖, Opacity, 直接摳圖結(jié)果,色偏糾正結(jié)果)
對(duì)于背景顏色未知,但飽和度低的場(chǎng)景,摳圖結(jié)果也依然可用。
更多結(jié)果
目前在車輛分割算法上,我們已經(jīng)實(shí)現(xiàn)了基于透明摳圖的思路用于改善半透車窗區(qū)域的效果,使得車輛經(jīng)過摳圖,能夠更加自然和諧與新背景進(jìn)行融合。目前車輛分割已經(jīng)上線 阿里云視覺智能開放平臺(tái),歡迎大家 體驗(yàn)試用。
目前的透明摳圖算法,面對(duì)更為多樣的真實(shí)場(chǎng)景下物體,仍然具有以下不足,需要進(jìn)一步探索解決:
后續(xù)我們會(huì)考慮進(jìn)一步提取背景的特征,將背景先驗(yàn)知識(shí)引入到透明度的估計(jì)上,增加 RGB 偏移輸出信息,嘗試對(duì)前景物體的顏色進(jìn)行糾正。
文章來源: https://developer.aliyun.com/article/766602?groupCode=aliyunmit
當(dāng)前名稱:達(dá)摩院視覺算法黑科技之透明摳圖-創(chuàng)新互聯(lián)
文章分享:http://www.rwnh.cn/article46/cchjeg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供商城網(wǎng)站、品牌網(wǎng)站建設(shè)、域名注冊(cè)、軟件開發(fā)、App設(shè)計(jì)、網(wǎng)站策劃
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容