中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

刷新五項(xiàng)SOTA,百度ActBERT:基于動(dòng)作和局部物體的視頻文本特征學(xué)習(xí)模型

機(jī)器之心發(fā)布

內(nèi)鄉(xiāng)網(wǎng)站建設(shè)公司成都創(chuàng)新互聯(lián)公司,內(nèi)鄉(xiāng)網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為內(nèi)鄉(xiāng)上千家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\成都外貿(mào)網(wǎng)站制作要多少錢,請(qǐng)找那個(gè)售后服務(wù)好的內(nèi)鄉(xiāng)做網(wǎng)站的公司定做!

機(jī)器之心編輯部

全球計(jì)算機(jī)視覺頂會(huì) CVPR 2020 上,百度共計(jì)有 22 篇論文被接收。這篇 Oral 論文中,百度提出了 ActBERT,該模型可以學(xué)習(xí)敘述性視頻進(jìn)行無監(jiān)督視頻文本關(guān)系,并提出糾纏編碼器對(duì)局部區(qū)域、全局動(dòng)作與語言文字進(jìn)行編碼。最終在 5 項(xiàng)相關(guān)測(cè)評(píng)任務(wù)上取得了 SOTA 結(jié)果。

ActBERT 在下游視頻和語言任務(wù)上,即文本視頻片段檢索、視頻描述生成、視頻問答、動(dòng)作步驟定位等任務(wù)上明顯優(yōu)于其他技術(shù),展示了其在視頻文本表示方面的學(xué)習(xí)能力。

論文:《ActBERT: Learning Global-Local Video-Text Representations》

論文鏈接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf

現(xiàn)有利用 BERT 訓(xùn)練方式進(jìn)行視頻語言建模一般通過量化視頻幀特征的方式,通過聚類離散化將視覺特征轉(zhuǎn)化為視覺單詞。但是,詳細(xì)的局部信息,例如,互動(dòng)對(duì)象,在聚類過程中可能會(huì)丟失,防止模型進(jìn)一步發(fā)現(xiàn)細(xì)粒度的視頻和文字對(duì)應(yīng)關(guān)系。本文提出 ActBERT 從配對(duì)視頻序列中挖掘全局和局部視覺線索和文字描述,它利用豐富的上下文信息和細(xì)粒度的關(guān)系進(jìn)行視頻 - 文本聯(lián)合建模,其貢獻(xiàn)有三點(diǎn):

首先,ActBERT 整合了全局動(dòng)作,局部區(qū)域與文本描述。諸如「剪切」、「切片」之類的動(dòng)作對(duì)于各種視頻相關(guān)的下游任務(wù)是有益處的。除了全局動(dòng)作信息,結(jié)合本地區(qū)域信息以提供細(xì)粒度的視覺提示,區(qū)域提供有關(guān)整個(gè)場(chǎng)景的詳細(xì)視覺線索,包括區(qū)域?qū)ο筇卣?,?duì)象的位置。語言模型可以從區(qū)域信息中受益以獲得更好的語言和視覺一致性。

其次,糾纏編碼器模塊對(duì)來自三個(gè)要素進(jìn)行編碼,即全局動(dòng)作,局部區(qū)域和語言描述。新的糾纏編碼模塊從三個(gè)來源進(jìn)行多模態(tài)特征學(xué)習(xí),以增強(qiáng)兩個(gè)視覺提示和語言之間的互動(dòng)功能。在全局動(dòng)作信息的指導(dǎo)下,對(duì)語言模型注入了視覺信息,并將語言信息整合到視覺模型中。糾纏編碼器動(dòng)態(tài)選擇合適的上下文以促進(jìn)目標(biāo)預(yù)測(cè)。

此外,提出四個(gè)訓(xùn)練任務(wù)來學(xué)習(xí) ActBERT。預(yù)訓(xùn)練后的 ActBERT 被轉(zhuǎn)移到五個(gè)與視頻相關(guān)的下游任務(wù),并定量地顯示 ActBERT 達(dá)到了最先進(jìn)的性能。

算法

糾纏編碼器

糾纏編碼器包括三個(gè)編碼器, 三個(gè)編碼器的輸入來自三個(gè)來源。為了加強(qiáng)視覺和語言特征之間的互動(dòng),糾纏編碼器將視覺信息注入語言編碼器,并將語言信息整合到視覺編碼器中。具體來說,糾纏編碼器利用動(dòng)作信息催化相互交流。

C_w 是混合后的語言表示形式,而 C_r 是引導(dǎo)后的區(qū)域特征。然后,C_w 使用一個(gè)線性層獲得新的鍵值對(duì)。產(chǎn)生的鍵值對(duì)與原始的 a 編碼器和 r 編碼器鍵值對(duì)堆疊在一起。通過這種方式,視覺和語言特征更進(jìn)一步聯(lián)系在一起。

訓(xùn)練方式

本文提出四個(gè)訓(xùn)練方式進(jìn)行模型學(xué)習(xí)。第一、有掩碼的語言建模任務(wù)。本文利用區(qū)域物體和全局動(dòng)作中的視覺信號(hào),發(fā)現(xiàn)視覺和語言實(shí)體之間的關(guān)系。該任務(wù)迫使模型從上下文描述中學(xué)習(xí),同時(shí)提取相關(guān)的視覺特征以協(xié)助文本預(yù)測(cè)。當(dāng)動(dòng)詞被去除時(shí),模型應(yīng)該利用動(dòng)作特征來更準(zhǔn)確預(yù)測(cè)。當(dāng)描述局部的名詞被去除時(shí),本地區(qū)域特征可以提供更多的上下文信息。

第二、有掩碼的動(dòng)作分類任務(wù)。這個(gè)任務(wù)是根據(jù)語言和物體特征,預(yù)測(cè)被去除的動(dòng)作標(biāo)簽。明確的動(dòng)作預(yù)測(cè)可以有兩方面的好處。1)長(zhǎng)時(shí)期動(dòng)作序列線索可以被挖掘,該任務(wù)可以更好地分辨執(zhí)行動(dòng)作時(shí)的時(shí)間順序;2)利用區(qū)域物體和語言文本可以獲得更好的跨模態(tài)建模,該任務(wù)可以增強(qiáng)預(yù)訓(xùn)練模型中的動(dòng)作識(shí)別能力,可以進(jìn)一步推廣到許多下游任務(wù)。

第三、有掩碼的物體分類任務(wù)。在該任務(wù)中,局部區(qū)域?qū)ο筇卣鞅浑S機(jī)去除。其目標(biāo)分布為將該區(qū)域輸入到相同的目標(biāo)檢測(cè)模型得到的激活值。優(yōu)化目標(biāo)是最小化兩種分布之間的 KL 差異。

第四、跨模式匹配。與下一個(gè)句子預(yù)測(cè)(NSP)任務(wù)類似,在第一個(gè)符號(hào) [ CLS ] 的輸出后加入了一個(gè)線性分類器,用來指示語言與視覺特征的相關(guān)性。如果分?jǐn)?shù)較高,表明文本很好地描述了視頻剪輯。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

ActBERT 在 HowTo100M 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。該數(shù)據(jù)集涵蓋了總計(jì) 23,611 項(xiàng)任務(wù),例如維護(hù)和修理、動(dòng)物營(yíng)救、準(zhǔn)備食材等。在五個(gè)任務(wù)上評(píng)測(cè)了 ActBERT 的性能。

視頻描述生成實(shí)驗(yàn)結(jié)果

ActBERT 在所有指標(biāo)上均優(yōu)于 VideoBERT,表明預(yù)訓(xùn)練學(xué)習(xí)到更好的視頻表示,也表明 ActBERT 對(duì)視頻序列建模的有效性。

動(dòng)作分割實(shí)驗(yàn)結(jié)果

ActBERT 明顯優(yōu)于基準(zhǔn)方法。它表明預(yù)訓(xùn)練的 ActBERT 可以僅處理視覺。當(dāng)刪除區(qū)域信息時(shí),可以觀察到性能下降了,表明詳細(xì)的局部線索對(duì)于密集視頻幀標(biāo)記任務(wù)有重要作用。

動(dòng)作步驟定位實(shí)驗(yàn)結(jié)果

ActBERT 的表現(xiàn)明顯優(yōu)于 TVJE,即平均提升有 7%。這個(gè)結(jié)果甚至比監(jiān)督學(xué)習(xí)的性能還要好。為了與 TVJE 有公平的對(duì)比,本文刪除了局部區(qū)域信息,這個(gè)結(jié)果也明顯優(yōu)于 TVJE,證明 ActBERT 預(yù)訓(xùn)練的有效性。完整 ActBERT 模型進(jìn)一步提高了 4%。

文本視頻片段檢索與視頻問答實(shí)驗(yàn)結(jié)果

不需要復(fù)雜的聯(lián)合視頻文本建模,ActBERT 明顯優(yōu)于現(xiàn)有其他方法。表明 ActBERT 在大規(guī)模數(shù)據(jù)集上的強(qiáng)大學(xué)習(xí)能力。

結(jié)論

ActBERT 以一種自我監(jiān)督的方式進(jìn)行聯(lián)合視頻文本建模。該方法直接為全局和局部視覺信息建模,以進(jìn)行細(xì)粒度的視覺和語言關(guān)系學(xué)習(xí)。ActBERT 將信息的三個(gè)來源作為輸入,并使用了新穎的糾纏編碼器進(jìn)一步增強(qiáng)三個(gè)源之間的交互。五個(gè)視頻文本基準(zhǔn)測(cè)試的定量結(jié)果證明了 ActBERT 的有效性。未來可以通過設(shè)計(jì)更強(qiáng)大的視頻和文本學(xué)習(xí)模塊來提升 ActBERT,并將其應(yīng)用到視頻動(dòng)作識(shí)別和檢測(cè)中。

參考文獻(xiàn):

Linchao Zhu, Yi Yang, ActBERT: Learning Global-Local Video-Text Representations, CVPR 2020.

Antoine Miech et al., HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips, ICCV 2019.

Chen Sun et al., VideoBERT: A Joint Model for Video and Language Representation Learning, ICCV 2019

Linchao Zhu, Zhongwen Xu, Yi Yang, Bidirectional Multirate Reconstruction for Temporal Modeling in Videos, CVPR 2017.

本文為機(jī)器之心發(fā)布,轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)。

------------------------------------------------

加入機(jī)器之心(全職記者 / 實(shí)習(xí)生):hr@jiqizhixin.com

投稿或?qū)で髨?bào)道:content@jiqizhixin.com

廣告 & 商務(wù)合作:bd@jiqizhixin.com

網(wǎng)站名稱:刷新五項(xiàng)SOTA,百度ActBERT:基于動(dòng)作和局部物體的視頻文本特征學(xué)習(xí)模型
轉(zhuǎn)載注明:http://www.rwnh.cn/article2/cpccoc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供域名注冊(cè)、網(wǎng)頁(yè)設(shè)計(jì)公司、外貿(mào)網(wǎng)站建設(shè)、定制開發(fā)、商城網(wǎng)站、網(wǎng)站內(nèi)鏈

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都seo排名網(wǎng)站優(yōu)化
巴青县| 蓝田县| 桃源县| 社旗县| 扎囊县| 蒙自县| 金溪县| 屯门区| 合阳县| 康乐县| 河东区| 芦山县| 通化市| 河池市| 龙胜| 赤壁市| 余干县| 黎川县| 克东县| 鄯善县| 博野县| 洪泽县| 铅山县| 铜川市| 丹凤县| 沂水县| 奇台县| 望都县| 香格里拉县| 乌拉特后旗| 江陵县| 思南县| 从化市| 中山市| 永泰县| 磐石市| 屏边| 吉隆县| 德庆县| 正安县| 家居|