本文作者為華為諾亞方舟實驗室鄒常青研究員。在本文中,作者從淺入深詳細講述了中山大學、華為加拿大諾亞方舟實驗室、香港城市大學、谷歌公司等合作發表在 SIGGRAPH ASIA 2019的論文 “Language-based Colorization of Scene Sketches”,該論文研究了基于自然語言交互的草圖卡通化技術,能夠在給定一個草圖下,計算機接收和分析用戶輸入語言指令,自動地將草圖變成彩色卡通圖。

人們常說一圖勝千言。
手繪草圖數據因為其直觀、易繪的特點,被人們廣泛用于表達和總結對客觀事物的認識和理解:如漫畫師用草圖來辛辣地表達某一個觀點或想法,小朋友用草圖來創作故事、設計師用草圖來記錄腦海中的瞬間的靈感。
而人類對客觀事物的認識、理解深度也通常能夠反映在其所繪制的草圖上。心理學的研究領域的研究認為 “The way children draw at the age of four can be a predictor of later intelligence”,即兒童的畫圖的方式能夠用來預測其未來的智力水平,而利用涂色或畫圖來訓練兒童的認知已被心理學家證實為幫助兒童智力發展的重要方式。
心理學研究表明兒童的草圖繪畫方式直接反映智商,而其智商發展也可以通過繪畫等方式訓練
除了心理學領域,草圖數據因為及其獨特的魅力吸引了計算機視覺、計算機圖形學、人機交互等領域的研究者的濃厚的興趣。
研究人類對于認知草圖、用草圖表達思想背后的原理跟機制并用計算模型來建模,由此開發出新的應用是研究人員一個重要的努力方向。
例如,
- 早在上世界七八十年代,現代計算機視覺領域奠基人Marr博士便開始致力于草圖的計算解釋研究;
- 現代反向工程之父、英國卡迪夫大學的Ralph R. Martin教授提出模擬人的視覺系統從線畫圖直接重建出三維模型;
- MIT的Department of Brain and CognitiveSciences (大腦與認知科學系)的另外一個大佬Josh Tenenbaum教授更是把從少量數據、稀疏數據來研究人類潛在的認知邏輯當成為之奮斗終身的研究課題。
在11月20日剛剛結束的計算機圖形學領域最具影響力的國際頂級會議SIGGRAPH(ASIA) 大會上,中山大學、華為諾亞方舟實驗室、聯手香港城市大學、谷歌公司發表了他們在復雜草圖的機器理解方向的最新進展。
值得一提的是,SIGGRAPH/SIGGRAPH ASIA是計算機圖形學領域最具影響力的會議,因為極其專業的審稿以及對論文工作量的高要求,使得這個會議被認為是計算機領域公認的高難度頂級學術會議。
對Sketchy Scene數據庫中的實例的交互涂色展示
這篇題為《Language-based Colorization ofScene Sketches》的文章可以認為是一個基于自然語言的人機交互涂色系統:給定一個草圖,計算機接收和分析用戶輸入語言指令并自動地將草圖變成彩色卡通圖。
這個問題看似簡單,其實非常具有挑戰性,涉及到兩種非常復雜的不同模態輸入數據(草圖及自然語言)的理解,而對于這兩種數據的理解,尤其在少量訓練樣本的下如何同時處理這兩種數據的交互,目前計算機領域仍沒有很好的解決方案。
除了研究本身的價值,文章的作者期望這篇文章所提出的技術能夠為兒童認知開發提供一個新的應用軟件,或者為黑白漫畫書批量處理成卡通書提供參考方案。
對 Freehand草圖的交互涂色展示
在技術實現上,為了降低模型推理的難度,文章將涂色問題解耦為分割、涂色兩個子問題,并分步涂色整個草圖的前景跟背景。
具體地,一個新穎的參考實例分割算法(Referring Instance Segmentation)被首先用來根據用戶的文字輸入自動分割出感興趣的前景物體,然后一個基于生成對抗網絡(GAN)以及圖-文特征融合算法的模型根據用戶的語言指令對分割出的前景物體進行上色,這個過程會自動執行部件的分割以及顏色推理。
在完成部分或所有物體的涂色后,系統最后使用一個雙通道對抗網絡同時學習包括空白區域在內的背景區域的分割和涂色。目前該論文的代碼以及數據已經開源。
在技術脈絡上看,這篇論文是2018年計算機視覺頂級會議ECCV的一篇題《SketchyScene: Richly-Annotated Scene Sketches》的工作的進一步的延伸。
在這篇文章中,由馬里蘭大學與倫敦瑪麗女王大學的SketchX Lab牽頭、聯合中山大學、山東大學以及加拿大Simon Fraser University 推出了第一個場景級別的草圖數據庫。
這個數據庫提供了8K張以上的場景級別的草圖的語義及實例分割的模板圖像數據,基于提供的8K多張模板數據,理論上其他用戶可以用實例替換的方式自動生成無限多的帶標注信息的場景草圖。
除了分割數據,這個數據庫同時為每張草圖提供了對應的參考卡通圖(草圖與參考圖的前景物體存在類別上的一一對應關系)。
這個數據庫無疑是草圖理解這個問題上一個重要的工作,受這篇工作的啟發,計算機圖形學的著名研究機構 MIT 跟法國國家信息與自動化研究所 INRIA 更是在2019年的SIGGRAPH ASIA 推出了另一個用于概念設計的草圖數據庫《OpenSketch: A Richly-Annotated Dataset of Product Design Sketches》。
在實驗驗證方面,這篇文章通過用戶調查形式從定量與定性兩個方面分析和展示了其方法對于不同形式的指令及不同風格的草圖的有效性跟魯棒性。
論文同時也指出雖然自然語言是一個非常有前途的輸入方式,但是自然語言輸入也存在固定的缺點,比如比較難區分相近的顏色,因而作者認為要獲得更加實用的系統,有必要結合自然語言輸入與別的模態的用戶輸入。
系統對于輸入指令的容錯能力展示
系統對于不同草圖風格的魯棒性和泛化能力展示
論文還討論了一系列的不足之處,比如結果中存在顏色瑕疵,用戶指令理解泛化能力不足。草圖卡通化雖然是一個比較小的應用,其作為復雜稀疏圖像數據理解的一個具體應用,這篇文章作為一個開創性的工作充分地展示這個問題的難度、意義和應用價值。相信在這篇文章的啟發下,在計算機視覺與計算圖形學領域將會出現越來越多的對于草圖的研究興趣。
來源 | 雷鋒網
作者 | camel