OpenI 啟智社區(qū)

啟智社區(qū),確實給力

當前位置:首頁 > 資訊 > 行業(yè)資訊 >

谷歌開源基于 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉

就在不久前,Google 人工智能實驗室宣布,他們在「實時手部跟蹤」方面取得了新的進展,并將這項新技術(shù)運用在了 MediaPipe 中,這也是 AI 計算機視覺任務(wù)的一大突破。這一技術(shù)不光可以在手機上實現(xiàn)實時捕捉性能,甚至可以同時對多個手的動作進行跟蹤。目前,Google 已經(jīng)將該項目開源,并且發(fā)布了相關(guān)博客介紹了這項技術(shù),雷鋒網(wǎng) AI 開發(fā)者將其內(nèi)容整理編譯如下。

谷歌開源基于 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉

概述

能夠?qū)κ值男螤詈瓦\動軌跡進行感知是改善用戶在不同的技術(shù)領(lǐng)域和平臺上的體驗的一個重要組成部分。例如,它可以實現(xiàn)手語理解和手勢控制,還可以使數(shù)字內(nèi)容和信息疊加在增強現(xiàn)實(AR,https://ai.googleblog.com/search/label/Augmented%20Reality  )的物理世界之上。雖然對我們來說這個能力是天生的,但強大的實時手部感知是一項極具挑戰(zhàn)性的計算機視覺任務(wù),因為手往往會自我遮蓋或相互遮擋(例如手指/手掌之間的遮蔽或者握手),而且手部之間也缺乏高對比度。

我們現(xiàn)在發(fā)布了一種新的手部感知方法,并且在 6 月的 CVPR 2019 大會上,我們已經(jīng)對該方法開放了預(yù)覽。在這個方法展示過程中,我們通過 MediaPipe——一個開放源碼的跨平臺框架,來構(gòu)建了處理視頻和音頻等類型的不同模式感知數(shù)據(jù)的框架。

該方法通過機器學(xué)習(xí)(ML)從單個幀中推斷出一只手的 21 個 3D 關(guān)鍵點,從而提供了高保真的手部和手指跟蹤。目前最先進的方法主要依靠強大的桌面環(huán)境進行推理,而我們的方法可以在手機端實現(xiàn)這個實時性能,甚至還可以擴展到對多個手的同步跟蹤。

我們希望通過提供該手部感知功能給廣泛的研究和開發(fā)社區(qū),能夠有利于大家創(chuàng)造出更多全新的用例,同時激勵更多新應(yīng)用程序和新研究途徑的出現(xiàn)。

谷歌開源基于 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉
 
圖 1 通過 MediaPipe 在手機上進行實時 3D 手部感知。我們的解決方案是使用機器學(xué)習(xí)從一個視頻幀計算手的 21 個三維關(guān)鍵點。圖中深度通過顏色灰色程度表示。

用于手跟蹤和手勢識別的機器學(xué)習(xí)架構(gòu)

我們的手部跟蹤解決方案使用了一個機器學(xué)習(xí)架構(gòu),該架構(gòu)由幾個模型共同組成:
  • 掌上檢測器模型(稱為 BlazePalm)。它對整個圖像進行操作,并返回一個定向的手部邊界框;
  • 手部標志模型。它在掌上探測器定義的裁剪圖像區(qū)域上操作,并返回高保真的 3D 手部關(guān)鍵點;
  • 手勢識別器,它將先前計算的關(guān)鍵點配置分類為一組離散的手勢。
這種架構(gòu)類似于我們最近發(fā)布的 face mesh ML 模型(https://sites.google.com/view/perception-cv4arvr/facemesh),這個模型也被其他人用于的姿態(tài)估計中。將精確裁剪的手掌圖像提供到手部標志模型中,可以大大減少更多數(shù)據(jù)(例如旋轉(zhuǎn)、平移和縮放)的需求,從而使網(wǎng)絡(luò)能夠?qū)⑵浯蟛糠中阅苡糜趨f(xié)調(diào)預(yù)測精度。
谷歌開源基于 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉
圖 2 手部感知模型整體架構(gòu)

BlazePalm:實時手部/手掌檢測

為了檢測手的初始位置,我們使用了一個名為 BlazePalm 的單鏡頭檢測器模型(https://arxiv.org/abs/1512.02325)。該模型可用于移動實時檢測,其方式類似于 BlazeFace(https://arxiv.org/abs/1907.05047),這個模型也可以在 MediaPipe 中使用。

手部檢測是一項非常復(fù)雜的任務(wù):我們的模型必須要適應(yīng)不同的手部尺寸,因此它具有相對于圖像幀更大的范圍 (~20x),并且它能夠檢測被遮擋以及自遮擋的手部狀態(tài)。

人臉通常具有很高的對比度,例如在眼睛和嘴部區(qū)域都有明顯的區(qū)別。但由于手部缺乏這樣的特征,因此我們很難僅從其視覺特征中可靠地檢測到這些特征。不過通過提供額外的信息,如手臂、身體或人的特征,倒是有助于精確的手定位。因此,我們的解決方案使用了不同的策略來解決上述挑戰(zhàn)。

首先,我們訓(xùn)練了一個手掌檢測器來代替手部探測器,因為推測例如手掌和拳頭這樣剛性物體的邊界框比檢測手指的關(guān)節(jié)要簡單得多。此外,由于手掌是較小的物體,我們采用了非最大抑制算法(https://www.coursera.org/lecture/convolutional-neural-networks/non-max-suppression-dvrjH  ),該算法可以在即使雙手自遮擋的情況(如握手)下,也能夠達到很好的工作效果。

同時,手掌還可以使用方形邊界框(在 ML 術(shù)語中的錨)來模擬,忽略其他高寬比,從而將錨的數(shù)量減少 3-5 倍。其次,我們將適用于更大場景上下文感知中的編碼器—解碼器特征提取器用于手部感知這樣的小對象中(類似于 RetinaNet 辦法,https://arxiv.org/abs/1612.03144)。最后,我們將訓(xùn)練期間的焦損降至最低,從而支持由于高度變化而產(chǎn)生的大量錨點。

利用上述技術(shù),我們實現(xiàn)了對手掌的平均檢測精度為 95.7%;而使用常規(guī)的交叉熵損失并且在沒有解碼器的情況下,檢測精度基準僅為 86.22%。

手部標志模型 

在對整個圖像進行手掌檢測后,我們隨后的手部標志模型通過回歸對檢測到的手部區(qū)域內(nèi)的 21 個 3D 手關(guān)節(jié)坐標進行精確的關(guān)鍵點定位,即直接對坐標進行預(yù)測。該模型將學(xué)習(xí)一致的內(nèi)部手勢表示,甚至對部分可見的手和自遮擋都表現(xiàn)出了魯棒性。

為了獲得實時數(shù)據(jù),我們手工標注了 30K 張具有 21 個 3D 坐標的真實手勢圖像,如下圖所示(如果存在對應(yīng)的坐標,則從圖像深度圖中獲取 Z 值)。為了更好地覆蓋可能的手勢,并提供對手勢的幾何形狀的附加監(jiān)督,我們還在不同的背景上渲染了一個高質(zhì)量的合成手部模型,并將其映射到相應(yīng)的三維坐標中。
谷歌開源基于 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉
 
圖 3 第一行圖片為對齊的手部通過實時標注傳遞到跟蹤網(wǎng)絡(luò);第二行圖片為使用實時標注渲染合成手部圖像。
然而,單純的合成數(shù)據(jù)很難推廣到更廣泛的領(lǐng)域。為了克服這個問題,我們使用了一個混合訓(xùn)練模式,下面的圖顯示了一個高級模型訓(xùn)練圖。
谷歌開源基于 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉
 

圖 4 手部跟蹤網(wǎng)絡(luò)的混合訓(xùn)練模式。裁剪的真實照片和渲染的合成圖像用作輸入,以預(yù)測 21 個 3D 關(guān)鍵點。
下圖展示了根據(jù)訓(xùn)練數(shù)據(jù)的性質(zhì)總結(jié)了回歸的準確性。使用合成數(shù)據(jù)和真實數(shù)據(jù)都可以顯著提高模型的性能。
谷歌開源基于 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉
圖 5 使用合成數(shù)據(jù)和真實數(shù)據(jù)對模型性能的影響結(jié)果

手勢識別器

在預(yù)測的手部骨架之上,我們應(yīng)用一種簡單的算法來推導(dǎo)手勢。首先,每個手指的狀態(tài),例如彎曲或豎直,是由關(guān)節(jié)的累積角度決定的。于是,我們將一組手指狀態(tài)映射到一組預(yù)定義的手勢上。這種簡單但有效的技術(shù)可以使我們在保證檢測質(zhì)量的情況下來估計基本的靜態(tài)手勢。現(xiàn)有的架構(gòu)支持多種文化的手勢計數(shù),如美國、歐洲和中國,以及各種手勢標志,包括「拇指向上」、緊握拳頭、「OK」、「搖滾」和「蜘蛛俠」。

谷歌開源基于 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉
圖 6 不同手勢識別結(jié)果

通過 MediaPipe 實現(xiàn) 

通過使用 MediaPipe,我們可以將該感知架構(gòu)建模稱模塊化組件的有向圖(https://en.wikipedia.org/wiki/Directed_graph),稱為 Calculators(計算器)。Mediapipe 附帶了一組可擴展的計算器,可用于解決各種設(shè)備和平臺的模型推理、媒體處理算法以及數(shù)據(jù)轉(zhuǎn)換等任務(wù)。而像裁剪、渲染和神經(jīng)網(wǎng)絡(luò)計算這樣的單個計算器,可以獨立在 GPU 上執(zhí)行。例如,我們在大多數(shù)現(xiàn)代手機上采用 TFLite GPU 推理。

我們用于手部跟蹤的 MediaPipe 架構(gòu)圖如下所示。該圖由兩個子圖組成——一個用于手檢測,另一個用于手部關(guān)鍵點(即標志性)計算。MediaPipe 提供的一個關(guān)鍵優(yōu)化是只在必要時運行掌上檢測器(因此該檢測器的運行頻率很低),從而節(jié)省了大量的計算時間。

我們通過從當前幀中計算所得的手部關(guān)鍵點來推斷后續(xù)視頻幀中的手部位置實現(xiàn)手部跟蹤,從而無需在每個幀上運行掌上檢測器。為了獲得魯棒性,手部跟蹤器模型輸出一個額外的標量,以獲取一只手在輸入裁剪中存在并合理對齊的置信度。只有當置信度低于一定的閾值時,才能將手部檢測模型重新應(yīng)用到整個幀中。

谷歌開源基于 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉
圖 7 手部標志模型的輸出(REJECT_HAND_FLAG)控制何時觸發(fā)手部檢測模型。這種行為是通過 MediaPipe 強大的同步構(gòu)建塊實現(xiàn)的,從而實現(xiàn)機器學(xué)習(xí)架構(gòu)的高性能和最佳吞吐量。

該高效的機器學(xué)習(xí)解決方案可以實時運行,并且跨越各種不同的平臺和形式因素。它所包含的復(fù)雜性要比上面的簡化描述要復(fù)雜得多。為此,我們將在 MediaPipe 框架中開源上述手部跟蹤與手勢識別方法,并附帶相關(guān)的端到端使用場景和源代碼(https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md),這為研究人員和開發(fā)人員提供了一個完整的堆棧,基于我們的模型可以對新思想進行實驗和原型設(shè)計。

未來方向 

我們計劃通過更強大和穩(wěn)定的跟蹤來擴展這項技術(shù),擴大我們能夠可靠檢測的手勢數(shù)量,并支持動態(tài)手勢的及時展開。我們相信,發(fā)布這項技術(shù)可以激發(fā)廣大研究和開發(fā)人員的新創(chuàng)意和應(yīng)用。我們很期待看到你的創(chuàng)新!

谷歌開源基于 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉
 
*MediaPipe

MediaPipe 是一個跨平臺框架,用于構(gòu)建應(yīng)用于機器學(xué)習(xí)流程中的多模態(tài)(例如,視頻,音頻,任何時間序列數(shù)據(jù))框架。通過使用 MediaPipe,我們可以將感知流程構(gòu)建為模塊化組件的圖形,包括:推理模型(例如,TensorFlow,TFLite)和媒體處理功能。

MediaPipe 開源地址:https://github.com/google/mediapipe/ 
原文鏈接:
https://ai.googleblog.com/2019/08/on-device-real-time-hand-tracking-with.html 
手勢識別開源地址:
https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md 
來源 | 雷鋒網(wǎng) AI 開發(fā)者    雷鋒網(wǎng)
作者 | 楊鯉萍
主站蜘蛛池模板: 国产线路中文字幕| 天天干天天做天天操| 亚洲欧美日韩综合久久久久| 国产在线精品香蕉麻豆| 成人午夜电影在线| 亚洲精品无码专区| 青青青国产手机在线播放| 宅男666在线永久免费观看| 亚洲国产精品网| 老师的圣水女主小说网| 国内一区亚洲综合图区欧美| 久久大香伊焦在人线免费| 男人的j桶女人的j视频| 国产无套粉嫩白浆| xxxxwww日本在线| 日韩精品免费一级视频| 免费国产午夜高清在线视频| 欧美手机在线视频| 女人18毛片一级毛片在线| 亚洲av无码专区国产不乱码| 精品久久久久中文字幕日本| 国产爽的冒白浆的视频高清| 丁香六月色婷婷| 欧美人与牲动交xxxx| 哪个网站可以看毛片| jizz中文字幕| 好爽~好大~不要| 久久精品国产一区二区三| 天堂а√8在线最新版在线| 久久国产精品无码一区二区三区 | 国产精品99久久久久久www| 东北女人奶大毛多水多| 国产福利vr专区精品| 一二三四在线观看免费高清视频| 欧洲精品码一区二区三区免费看 | 日韩伦理一区二区| 亚洲精品国产精品国自产网站| 色偷偷狠狠色综合网| 国产福利一区二区三区在线视频| yellow视频免费在线观看| 日本精品高清一区二区2021|