解決MR視頻的痛點，穀歌用機器學習重現被頭顯遮擋的臉

雷鋒網按：許多人都喜歡製作將用戶拍攝進去的VR遊戲視頻，稱之為MR視頻，但戴著頭顯拍攝意味著人臉被擋住了，針對這個問題，穀歌想出了一個辦法。本文編譯自Google Blog。

虛擬實境（VR）帶給我們身臨其境的絕妙體驗，讓我們能親眼感受虛虛實實的新奇環境。但是與現實的分享相比， VR頭顯不能完整顯示其他參與者的影像，因此難以將這種體驗分享給其他人。

這道溝壑可以通過一種叫做混合現實（Mixed Reality， MR）的技術來彌補。這項技術作為一種媒介轉化方法，把VR用戶所見的虛擬世界轉化為二維的影像，如此便可以讓其他人清楚的看到VR使用者的體驗。

雖然混合現實技術讓體驗的分享變得可行，但頭顯設備卻依然遮擋著使用者的面部表情和眼神，成為了虛擬實境提供深度參與感體驗和全視野的絆腳石。

穀歌機器感知（Google Machine Perception）團隊的研究者們已經和Daydream Labs以及YouTube Spaces一起，共同尋找如何能在製造出一種虛擬的“透視”效果，從而移除頭顯，讓我們能看到其他人臉部的解決方案。

雷鋒網注：VR用戶在綠幕前與虛擬環境相融合，並製造出混合現實的效果：傳統混合現實的面部是被遮擋的，而我們的結果可以顯示面部。注意頭顯上有一處標記説明位置識別。

我們的技術融合了3D視覺，機器學習以及圖形技術。

動態臉部模型捕捉

我們技術的核心思想是使用用戶的臉部3D模型作為被遮擋的臉的代理模型。這個代理模型被用來合成混和現實中的臉。首先，我們使用稱為“注視點決定的動態表情（gaze-dependent dynamic appearance）”的技術，來捕捉本人臉部的3D模型。初始的校準需要使用者坐在一個彩色深度攝像機以及一個顯示器前，用眼睛盯住螢幕上的標記。

通常只需要不到一分鐘，就可以用這種一次性的校準方法得到用戶臉部的3D模型，然後放在資料庫中學習。這個資料庫將不同注視點和眨眼動作對應到各種表情圖片。這個注視點資料庫（以注視點作為索引的面部紋理模型）讓我們能動態的根據注視點的不同而生成不同的面部表情，進而合成出自然而生動的臉。

雷鋒網注：左圖中，用戶的面部在她盯著螢幕上標記的時候被攝像頭記錄下來。右圖中我們展示了重建的3D面部模型的動態特性：通過移動或點擊滑鼠，我們能類比注視點移動和眨眼效果。

校準和對齊

製作一段混合現實視頻需要特製的設備——一台校準過，和頭顯時間同步的外置攝像機。攝像機拍攝一段VR使用者在綠幕前的視頻，然後剪下使用者的影像合成到虛擬世界中，最終生成混合現實的視頻。其中非常重要的一步就是要準確的估計攝像機和頭顯坐標系統的校準值。這些校準技術通常需要大量的手動調節，並需要很多步驟才能完成。

我們在頭顯前加了一個標記，使用3D圖像追蹤簡化了上述的過程，使我們通過VR設備就可以自動地優化校準值。

至於頭顯的移除，我們需要把3D的面部模型和攝像機影像中可見的部分面部對齊，並完美的縫合在一起。一種可行的縫合方法是將面部模型直接放在頭顯後邊。前邊提到的使用到VR頭顯定位的校準技術，能夠提供足夠的資訊來決定如何放置模型，讓我們能夠把虛擬的臉渲染在影像裡。

合成與渲染

對齊之後，最後一步就是通過恰當的3D面部模型渲染，使它和原視頻完美融合。使用一台經過SMI改裝，能夠實現眼球追蹤技術的HTC Vive頭顯，結合我們的動態注視點資料庫，我們能夠重現使用者的注視點。這些眼球追蹤器得到的圖片並不足以直接重建被遮擋的面部區域，但是足夠提供很精細的的注視點資訊。我們可以使用追蹤器得到的注視點即時資料，精確生成出用戶的表情和眼睛的眨動。在運行時，在預處理階段得到的注視點資料庫會告訴我們最符合所查詢注視點的面部照片，同樣也會留意臉部美化的問題，比如顳骨是不是平滑。

此外，考慮到注視點數據收集和實際運行時的光線的變化，我們還進行了色彩矯正，並添加了羽化效果，這樣一來合成加入的部分就和其餘的面部更相稱了。

正如“恐怖穀（uncanny valley）理論” 提到的，人類對臉部的人工處理是有高度敏感性的，即使是合成中微小的不足也會引起你的留意，讓你覺得不自然。為了減少這方面的影響，我們並沒有完全移除頭顯，而是選擇了一種“潛水面具效果”的方式，把色彩校正過的面部圖像和半透明的頭顯合成在一起。提醒觀看者頭顯的存在能幫我們避免“恐怖穀”效應，也能讓對齊和調色演算法的小錯誤不那麼顯眼。

有了可以看到用戶面部表情和真實注視點的半透明頭顯，這段視頻就可以和虛擬世界融合起來，製作出最終的混合現實視頻了。

結果與展望

我們運用了我們的頭顯消除技術來優化混合現實，使得媒介不光能展示VR使用者如何和虛擬環境互動，同時還能生動形象的展示他們的面部表情。下邊是一個我們技術應用的例子，一位藝術家在虛擬環境中使用穀歌畫刷（Google Tilt Brush ）：

雷鋒網注：在混合現實的展示下，一位藝術家正在用谷歌畫筆進行3D藝術創作。上邊的圖是傳統的混合現實，頭顯遮擋了面部。下邊是我們的結果，整個的面部和眼睛都自然生動的展現了出來。

我們展示了這項技術的潛力，它的應用卻不僅僅只在混合現實中。頭顯移除技術還將優化虛擬實境有關的通訊和社交的各種應用，例如VR會議，多人VR遊戲，以及和朋友家人的旅遊探險。從被頭顯遮擋什麼也看不到，到生動真實的面部圖像，能看到VR世界中同伴們的臉註定是VR領域一個重大的變革，而我們也很高興能親歷這樣的變革。

via Google

這些眼球追蹤器得到的圖片並不足以直接重建被遮擋的面部區域，但是足夠提供很精細的的注視點資訊。我們可以使用追蹤器得到的注視點即時資料，精確生成出用戶的表情和眼睛的眨動。在運行時，在預處理階段得到的注視點資料庫會告訴我們最符合所查詢注視點的面部照片，同樣也會留意臉部美化的問題，比如顳骨是不是平滑。

有了可以看到用戶面部表情和真實注視點的半透明頭顯，這段視頻就可以和虛擬世界融合起來，製作出最終的混合現實視頻了。

結果與展望

via Google