算機視覺界的“奧斯卡”,一年一度的 CVPR 剛剛落下帷幕,百度大腦以 CVPR 中10項競賽的奪冠向世界彰顯了其不容小覷的技術實力,令人振奮。
6月16-20日,
計算機視覺及模式識別領域頂級國際學術會議 CVPR 在美國加州長灘舉行,超過9200位相關人士共赴盛會。
本屆會議收到了5160篇提交論文,其中1294論文最終被接收發表,其中百度共有17篇論文被收錄。
百度相關視覺團隊赴美參會,
共舉辦兩項 Workshop 、一項 Tutorial 講座,并接連獲得10項 CVPR 競賽任務的冠軍,全面涵蓋視覺領域下的視頻理解與分析、目標檢測、圖像超分辨、智能城市車輛識別、人臉&人體檢測等眾多熱門子領域。
其中,百度研究院團隊獲4項冠軍、百度視覺團隊獲6項冠軍,此前被 CVPR 大會收錄的論文也大多出自這兩個團隊。
視頻理解&分析領域
ActivityNet 是目前視頻理解領域影響力最大的賽事,與每年的頂級學術會議 CVPR 一起召開。在本次競賽中,
百度更是獲得視頻動作提名、視頻動作檢測兩項任務的冠軍,并在新增任務 EPIC-Kitchens 動作識別挑戰賽中獲兩項測試集冠軍( Seen kitchens 和 Unseen kitchens )。這已是百度視覺團隊連續三年在 ActivityNet 相關賽事中斬獲冠軍。
視頻理解是計算機視覺和模式識別領域的基礎問題之一,其中視頻動作提名和視頻動作檢測在安防、視頻摘要等場景下具有重要的應用價值。
在視頻動作提名、視頻動作檢測兩項任務中,百度分別針對動作分類、動作邊界不準確等問題提出 C-TCN 、 BMN 等模型,在 THUMOS 和 ActivityNet 兩個公開數據集的指標均達到世界領先,相關的代碼將于6月底采用飛槳(PaddlePaddle)開源。
今年的新增任務 EPIC-Kitchens 動作識別挑戰賽聚焦第一人稱視頻理解,對可穿戴設備、智能家居、人機交互等方面的應用起著關鍵作用,也是目前學術界、工業界關注的焦點。
競賽吸引了
Facebook AI 、牛津大學、 INRIA (法國國家信息與自動化研究所)等66支隊伍參與,
百度在該任務中的 Seenkitchens 和 Unseen kitchens 兩項測試集上以很大優勢獲得第一,并受邀在 CVPR 2019 EPIC 和 ActivityNet Workshop 上作出報告。
針對第一人稱視頻小物體多、模糊遮擋嚴重等難點,百度使用
2D 檢測框架和 3D 卷積網絡結合的方法進行視頻特征提取。不僅如此,百度還提出了
門控特征融合模塊,通過增強視頻片段特征與上下文物體特征之間的非線性交互,使得輸出表征具有更好的分辨能力。
人體檢測領域
在人體檢測領域,百度更是“開掛”一般,拿下
“三連冠”。
在
“ Look Into Person ”國際競賽(以下簡稱 LIP )三項人體精細化解析競賽單元( Track1: Single-Person Human Parsing , Track3: Mult-Person Human Parsing , Track4: Video Multi-Person Parsing )中,
百度均獲第一名。
LIP 國際競賽專注于人體的精細語義理解任務,包括單人的人體解析任務、單人的人體姿態估計任務、多人的人體解析任務、視頻多人人體解析任務。此次比賽的主題為復雜場景中人體的視覺理解,是計算機視覺領域的基本問題之一,對視頻監控、人機交互、自動駕駛、虛擬現實等場景具有重要意義。
比賽中,單人人體解析競賽單元的任務是輸出單人圖片語義分割信息(如上肢和下肢等)。針對人體關鍵目標區域較小、難以檢測的問題,百度對以往基于多尺度全卷積神經網絡的模型(例如 Pyramid Scene Parsing Network ,DeepLab v3+ 等)進行改進,使每個卷積核能對圖片的細節進行感知,同時輸出精度更高的 feature map。
此外,百度還進行了圖片增強、數據擴張,在訓練中動態調整輸入圖片尺度,使用 mIoU loss 損失函數等,使得模型能夠更精確地捕捉肢體的細節、以及被遮蓋的部分。
最終根據各個不同模型的效果進行融合,百度取得65.18%的 mIoU ,獲得了單人人體解析的冠軍,超過上屆冠軍7.2個百分點。

▲單人人體解析結果展示
多人人體解析和視頻人體解析方面,
解決的是對圖片中以及視頻中的多人語義信息分割問題。該競賽數據集與單人人體解析任務相比,更關注多人遮擋等難題,進一步增加比賽難度。
在比賽中,百度針對多人遮擋嚴重、姿態和視角多樣性等特點,優化改進了結合多人檢測和單人人體解析的 top-down 框架,通過最終改進的模型在多人人體解析和視頻多人人體解析競賽單元中均取得第一的成績,成績大幅領先第二名。
人臉活體檢測領域
人臉活體檢測是視覺人臉識別領域的一個經典問題。近年來隨著人臉技術的不斷落地,活體檢測在人臉解鎖、人臉支付、遠程身份核驗等應用上發揮著越來越重要的作用。
在 CVPR 人臉活體檢測比賽上,百度作為 invited participant 在300多個隊伍中獲得第一的好成績( Acer 即平均錯誤率最低)。
CVPR-19-Face Anti-spoofing Attack DetectionChallenge 是 CVPR 會議歷史上首次舉辦人臉活體檢測比賽,發布了目前世界上最大的跨模態人臉活體檢測數據集 CASIA-SURF ,包含1000人次的21000段三模態( RGB、IR、Depth )人臉視頻。比賽任務兼顧學術和實用價值,十分富有挑戰。
作為該項比賽的冠軍,百度在活體檢測方向已積累百萬級的攻擊圖像數據,持續研發迭代了多模態( Depth、IR、RGB )、雙端(云端、嵌入式)的活體檢測模型。這些模型對內支持多項核心業務,對外服務眾多標桿客戶,滿足不同的場景應用需求。
目標檢測領域
目標檢測是計算機視覺和模式識別領域的基礎問題之一,
百度在該領域獲得“ Objects 365 物體檢測”國際競賽 Full Track 冠軍,而 Full Track 主要用于探索目標檢測系統的性能上限。Objects 365作為一個全新的數據集,旨在促進對自然場景不同對象的檢測研究。
Objects 365 在638K 張圖像上標注了365個對象類,訓練集中共有超過1000萬個邊界框。因此,這些標注涵蓋了發生在各種場景類別中的常見對象。參賽者可以使用發布的60萬張圖片組成的訓練集訓練一個目標檢測模型,對圖片中的存在于 Objects 365定義的365個類中的目標輸出包圍框、類別和分數。
在3萬張圖片組成的驗證集上做算法性能驗證,最終在由10萬張圖片組成的測試集中完成挑戰。據悉,
百度采用了基于飛槳研發的檢測訓練框架,訓練框架及模型即將開源。
同時,
百度在 NTIRE 競賽中的圖像超分辨項目也強勢奪冠。這是百度首次參加 NTIRE (計算機視覺 low-levelvision 領域中影響力最大的競賽),便在400余支參賽隊伍脫穎而出。
本次比賽采用了全新拍攝的真實數據集( RealSR ),
百度視覺團隊在 PSNR 和 SSIM 兩項指標上均名列第一,同時提出極具創新性的 CDSR 超分模型,通過級聯的方法逐步將圖像從模糊變清晰。相關技術采用飛槳部署于百度 App ,已經應用于 Feed 圖片查看的功能。
智能城市車輛識別領域
本屆 AI-city 公開賽包含城市范圍
多攝像頭車輛跟蹤、城市范圍多攝像頭車輛重識別和交通異常檢測三個子任務。百度在城市范圍多攝像頭車輛重識別任務中獲得冠軍,得益于飛槳( PaddlePaddle )框架助力,并憑借在車輛垂類領域檢測、跟蹤、屬性分析、關鍵點定位等技術能力的長期積累,實現 mAP Score 指標達到0.855,超越第二名6.4個點。
城市范圍多攝像頭車輛重識別是智能車輛分析能力的核心基礎技術之一。智能車輛分析能力為百度在智能城市領域積極探索提供強有力的支持,尤其是在城市安防、智能交通等重要的 AI2B 場景下都離不開對車輛結構化分析的需求。
目前,百度已經開放車輛檢測、車輛屬性/車型識別、車流統計和智能定損等多項相關服務。未來,百度將繼續推進車輛垂類技術能力的建設及智能車輛分析技術迭代,為不同領域賦能。
百度在今年的 CVPR 上滿載而歸,顯示出百度大腦在視覺領域各個方向的長期積累、全面發力,更是百度大腦技術實力全球領先的強大佐證。
不僅如此,作為百度 AI 技術的集大成者,百度大腦還在對外不斷開放這些頂尖 AI 技術,目前已對外開放視覺、語音、自然語言處理等170多項領先的 AI 能力,為廣大開發者提供 AI 技術研發支持,賦能各行業。
來源 | 百度AI