資訊

百度大腦“AI力”爆棚，一舉斬獲視覺頂會2019 CVPR 10項競賽冠軍

2019-06-27 14:07:25

算機視覺界的“奧斯卡”，一年一度的 CVPR 剛剛落下帷幕，百度大腦以 CVPR 中10項競賽的奪冠向世界彰顯了其不容小覷的技術(shù)實力，令人振奮。

6月16-20日，計算機視覺及模式識別領(lǐng)域頂級國際學(xué)術(shù)會議 CVPR 在美國加州長灘舉行，超過9200位相關(guān)人士共赴盛會。

本屆會議收到了5160篇提交論文，其中1294論文最終被接收發(fā)表，其中百度共有17篇論文被收錄。

百度相關(guān)視覺團隊赴美參會，共舉辦兩項 Workshop 、一項 Tutorial 講座，并接連獲得10項 CVPR 競賽任務(wù)的冠軍，全面涵蓋視覺領(lǐng)域下的視頻理解與分析、目標(biāo)檢測、圖像超分辨、智能城市車輛識別、人臉&人體檢測等眾多熱門子領(lǐng)域。

其中，百度研究院團隊獲4項冠軍、百度視覺團隊獲6項冠軍，此前被 CVPR 大會收錄的論文也大多出自這兩個團隊。

視頻理解&分析領(lǐng)域

ActivityNet 是目前視頻理解領(lǐng)域影響力最大的賽事，與每年的頂級學(xué)術(shù)會議 CVPR 一起召開。在本次競賽中，百度更是獲得視頻動作提名、視頻動作檢測兩項任務(wù)的冠軍，并在新增任務(wù) EPIC-Kitchens 動作識別挑戰(zhàn)賽中獲兩項測試集冠軍（ Seen kitchens 和 Unseen kitchens ）。這已是百度視覺團隊連續(xù)三年在 ActivityNet 相關(guān)賽事中斬獲冠軍。

視頻理解是計算機視覺和模式識別領(lǐng)域的基礎(chǔ)問題之一，其中視頻動作提名和視頻動作檢測在安防、視頻摘要等場景下具有重要的應(yīng)用價值。

在視頻動作提名、視頻動作檢測兩項任務(wù)中，百度分別針對動作分類、動作邊界不準(zhǔn)確等問題提出 C-TCN 、 BMN 等模型，在 THUMOS 和 ActivityNet 兩個公開數(shù)據(jù)集的指標(biāo)均達到世界領(lǐng)先，相關(guān)的代碼將于6月底采用飛槳（PaddlePaddle）開源。

今年的新增任務(wù) EPIC-Kitchens 動作識別挑戰(zhàn)賽聚焦第一人稱視頻理解，對可穿戴設(shè)備、智能家居、人機交互等方面的應(yīng)用起著關(guān)鍵作用，也是目前學(xué)術(shù)界、工業(yè)界關(guān)注的焦點。

競賽吸引了 Facebook AI 、牛津大學(xué)、 INRIA （法國國家信息與自動化研究所）等66支隊伍參與，百度在該任務(wù)中的 Seenkitchens 和 Unseen kitchens 兩項測試集上以很大優(yōu)勢獲得第一，并受邀在 CVPR 2019 EPIC 和 ActivityNet Workshop 上作出報告。

針對第一人稱視頻小物體多、模糊遮擋嚴(yán)重等難點，百度使用 2D 檢測框架和 3D 卷積網(wǎng)絡(luò)結(jié)合的方法進行視頻特征提取。不僅如此，百度還提出了門控特征融合模塊，通過增強視頻片段特征與上下文物體特征之間的非線性交互，使得輸出表征具有更好的分辨能力。

人體檢測領(lǐng)域

在人體檢測領(lǐng)域，百度更是“開掛”一般，拿下“三連冠”。

在“ Look Into Person ”國際競賽（以下簡稱 LIP ）三項人體精細化解析競賽單元（ Track1： Single-Person Human Parsing ， Track3： Mult-Person Human Parsing ， Track4： Video Multi-Person Parsing ）中，百度均獲第一名。

LIP 國際競賽專注于人體的精細語義理解任務(wù)，包括單人的人體解析任務(wù)、單人的人體姿態(tài)估計任務(wù)、多人的人體解析任務(wù)、視頻多人人體解析任務(wù)。此次比賽的主題為復(fù)雜場景中人體的視覺理解，是計算機視覺領(lǐng)域的基本問題之一，對視頻監(jiān)控、人機交互、自動駕駛、虛擬現(xiàn)實等場景具有重要意義。

比賽中，單人人體解析競賽單元的任務(wù)是輸出單人圖片語義分割信息（如上肢和下肢等）。針對人體關(guān)鍵目標(biāo)區(qū)域較小、難以檢測的問題，百度對以往基于多尺度全卷積神經(jīng)網(wǎng)絡(luò)的模型（例如 Pyramid Scene Parsing Network ，DeepLab v3+ 等）進行改進，使每個卷積核能對圖片的細節(jié)進行感知，同時輸出精度更高的 feature map。

此外，百度還進行了圖片增強、數(shù)據(jù)擴張，在訓(xùn)練中動態(tài)調(diào)整輸入圖片尺度，使用 mIoU loss 損失函數(shù)等，使得模型能夠更精確地捕捉肢體的細節(jié)、以及被遮蓋的部分。

最終根據(jù)各個不同模型的效果進行融合，百度取得65.18%的 mIoU ，獲得了單人人體解析的冠軍，超過上屆冠軍7.2個百分點。

▲單人人體解析結(jié)果展示

多人人體解析和視頻人體解析方面，解決的是對圖片中以及視頻中的多人語義信息分割問題。該競賽數(shù)據(jù)集與單人人體解析任務(wù)相比，更關(guān)注多人遮擋等難題，進一步增加比賽難度。

在比賽中，百度針對多人遮擋嚴(yán)重、姿態(tài)和視角多樣性等特點，優(yōu)化改進了結(jié)合多人檢測和單人人體解析的 top-down 框架，通過最終改進的模型在多人人體解析和視頻多人人體解析競賽單元中均取得第一的成績，成績大幅領(lǐng)先第二名。

人臉活體檢測領(lǐng)域

人臉活體檢測是視覺人臉識別領(lǐng)域的一個經(jīng)典問題。近年來隨著人臉技術(shù)的不斷落地，活體檢測在人臉解鎖、人臉支付、遠程身份核驗等應(yīng)用上發(fā)揮著越來越重要的作用。

在 CVPR 人臉活體檢測比賽上，百度作為 invited participant 在300多個隊伍中獲得第一的好成績（ Acer 即平均錯誤率最低）。CVPR-19-Face Anti-spoofing Attack DetectionChallenge 是 CVPR 會議歷史上首次舉辦人臉活體檢測比賽，發(fā)布了目前世界上最大的跨模態(tài)人臉活體檢測數(shù)據(jù)集 CASIA-SURF ，包含1000人次的21000段三模態(tài)（ RGB、IR、Depth ）人臉視頻。比賽任務(wù)兼顧學(xué)術(shù)和實用價值，十分富有挑戰(zhàn)。

作為該項比賽的冠軍，百度在活體檢測方向已積累百萬級的攻擊圖像數(shù)據(jù)，持續(xù)研發(fā)迭代了多模態(tài)（ Depth、IR、RGB ）、雙端（云端、嵌入式）的活體檢測模型。這些模型對內(nèi)支持多項核心業(yè)務(wù)，對外服務(wù)眾多標(biāo)桿客戶，滿足不同的場景應(yīng)用需求。

目標(biāo)檢測領(lǐng)域

目標(biāo)檢測是計算機視覺和模式識別領(lǐng)域的基礎(chǔ)問題之一，百度在該領(lǐng)域獲得“ Objects 365 物體檢測”國際競賽 Full Track 冠軍，而 Full Track 主要用于探索目標(biāo)檢測系統(tǒng)的性能上限。Objects 365作為一個全新的數(shù)據(jù)集，旨在促進對自然場景不同對象的檢測研究。

Objects 365 在638K 張圖像上標(biāo)注了365個對象類，訓(xùn)練集中共有超過1000萬個邊界框。因此，這些標(biāo)注涵蓋了發(fā)生在各種場景類別中的常見對象。參賽者可以使用發(fā)布的60萬張圖片組成的訓(xùn)練集訓(xùn)練一個目標(biāo)檢測模型，對圖片中的存在于 Objects 365定義的365個類中的目標(biāo)輸出包圍框、類別和分數(shù)。

在3萬張圖片組成的驗證集上做算法性能驗證，最終在由10萬張圖片組成的測試集中完成挑戰(zhàn)。據(jù)悉，百度采用了基于飛槳研發(fā)的檢測訓(xùn)練框架，訓(xùn)練框架及模型即將開源。

同時，百度在 NTIRE 競賽中的圖像超分辨項目也強勢奪冠。這是百度首次參加 NTIRE （計算機視覺 low-levelvision 領(lǐng)域中影響力最大的競賽），便在400余支參賽隊伍脫穎而出。

本次比賽采用了全新拍攝的真實數(shù)據(jù)集（ RealSR ），百度視覺團隊在 PSNR 和 SSIM 兩項指標(biāo)上均名列第一，同時提出極具創(chuàng)新性的 CDSR 超分模型，通過級聯(lián)的方法逐步將圖像從模糊變清晰。相關(guān)技術(shù)采用飛槳部署于百度 App ，已經(jīng)應(yīng)用于 Feed 圖片查看的功能。

智能城市車輛識別領(lǐng)域

本屆 AI-city 公開賽包含城市范圍多攝像頭車輛跟蹤、城市范圍多攝像頭車輛重識別和交通異常檢測三個子任務(wù)。百度在城市范圍多攝像頭車輛重識別任務(wù)中獲得冠軍，得益于飛槳（ PaddlePaddle ）框架助力，并憑借在車輛垂類領(lǐng)域檢測、跟蹤、屬性分析、關(guān)鍵點定位等技術(shù)能力的長期積累，實現(xiàn) mAP Score 指標(biāo)達到0.855，超越第二名6.4個點。

城市范圍多攝像頭車輛重識別是智能車輛分析能力的核心基礎(chǔ)技術(shù)之一。智能車輛分析能力為百度在智能城市領(lǐng)域積極探索提供強有力的支持，尤其是在城市安防、智能交通等重要的 AI2B 場景下都離不開對車輛結(jié)構(gòu)化分析的需求。

目前，百度已經(jīng)開放車輛檢測、車輛屬性/車型識別、車流統(tǒng)計和智能定損等多項相關(guān)服務(wù)。未來，百度將繼續(xù)推進車輛垂類技術(shù)能力的建設(shè)及智能車輛分析技術(shù)迭代，為不同領(lǐng)域賦能。

百度在今年的 CVPR 上滿載而歸，顯示出百度大腦在視覺領(lǐng)域各個方向的長期積累、全面發(fā)力，更是百度大腦技術(shù)實力全球領(lǐng)先的強大佐證。

不僅如此，作為百度 AI 技術(shù)的集大成者，百度大腦還在對外不斷開放這些頂尖 AI 技術(shù)，目前已對外開放視覺、語音、自然語言處理等170多項領(lǐng)先的 AI 能力，為廣大開發(fā)者提供 AI 技術(shù)研發(fā)支持，賦能各行業(yè)。

來源 | 百度AI

啟智社區(qū)，確實給力

資訊

百度大腦“AI力”爆棚，一舉斬獲視覺頂會2019 CVPR 10項競賽冠軍