自動駕駛、醫療手術、人機交互，機器視覺的應用潛力比你想像的要大

每個機器人的形態、大小、樣貌都不一樣，這需要根據具體的應用場景進行分析和設計。但是無論是哪種形態的機器人，基本上都會嵌入視覺系統，用於感知周圍的環境，然後通過回饋的資訊規劃機器人的動作。

香港中文大學天石機器人研究所所長劉雲輝教授自本科起就從事機器人研究，至今已經有數十年的研發經驗。在 ACT Lab 和深圳灣聯合舉辦的「機器人控制系統和視覺的融合」活動中，劉雲輝教授向慕名而來的創業者們分享了自己在機器人領域的所思所得。

我灣梳理了本次演講的重點和要點，

帶領讀者瞭解機器視覺領域最前沿的研究課題。

三維視覺技術大有可為

即時三維視覺技術應用廣泛，在機器控制、物件抓取和人機交互等技術領域，都不能脫離即時三維視覺技術。正因如此，該技術有著巨大的商業潛力。據報導，預計 2020 年，全球 3D 成像系統市場預計能達到 536 億人民幣，年度複合增長率 39.4%，尤其是在體育醫學、矯形外科學、人體測量等醫學領域，對 3D 成像技術的需求更為強烈。

劉雲輝教授研究即時三維視覺技術多年，他認為：「研究三維視覺技術，歸根結底，就是要理解什麼是視覺資訊，然後將這些視覺資訊在實際的場景中應用起來。」他研發的基於結構光的雙目視覺技術具有精度高、測量速度快、動態拍攝等特點，

並且已經應用在商業化的 3D 成像系統中。

工廠叉車也要自動駕駛

目前，大型工廠的室內物件搬運 70% 靠的是人工駕駛叉車進行操作，但從事重體力勞動工人的人工成本上升和人力資源的短缺，對很多行業造成重大影響，移動機械的自動化改造需求迫切。

經研究發現，室內移動器械自動駕駛的挑戰主要有兩點：一是無 GPS 的定位和製圖，二是精確的運動控制。憑藉多年的圖像感測器研發經驗，劉雲輝教授將 Visual SLAM 演算法和 RGB-D 感測器集成到移動機器人的視覺導航模組上，應用於移動機械平臺，實現了低速且高精度的自動駕駛功能。

劉教授表示，目前為了保證安全性，移動器械的速度並沒有做得太快。不過，製造業、建築業、採礦業、物流業等領域對室內移動器械自動駕駛有強烈的需求，

所以，該項技術在未來會有很大的發展空間。

「軟」「硬」兩手抓

機器人或者機械臂所抓取的物件基本上都是剛體，很少能對變形體進行抓取。不過，在日常生活中，很多物件並不是棱角分明並且內部結構堅硬的剛體，而是以柔性體的形式存在，比如日常所穿的衣服、吃的食物、線材、柔性 PCB 以及人體組織。

劉雲輝教授認為，在需要操作形變體的領域中，醫療健康對該技術的需求最強烈並且對操作的精准度也更高。劉教授結合自身的研發經驗補充說：「醫療手術機器人的研發主要有三個挑戰：首先是安全性，醫療手術中不能容許半點差錯，所以如何保證手術機器人的安全性，

以及與操作醫師的有效配合是重中之重；保證安全性後，機器人如何在柔軟的體內進行解剖和組織切除，機械結構如何設計，視覺系統如何設計，就是研究人員面臨的第二大挑戰；第三，如何讓不懂機器人技術的醫生快速上手操作，人機交互如何設計，則是第三個挑戰。」

為了應對這三大挑戰，劉教授針對性地提出了三個解決方案：首先，手術機器人可採用小尺寸的、彈性的、或者柔性的機械結構，在保證操作精度的同時防止人體組織被機械所傷；第二，在機器人內部嵌入多種感測器，比如 IMU、聲音感測器、體感設備、眼球跟蹤設備等，增強機器人的功能，並簡化操作方式；第三，通過在機器人中內嵌攝像頭，

以圖像引導的方式即時獲取手術回饋。

人形才是最適的人機對話模式

我們周圍的生活環境是以人類的行為方式為基準而建立的，人類可以相當輕鬆地上樓梯、開門、適應各種地形，所以說最好的機器人形態就是人形機器人。同理，人和人的溝通是我們最習慣的對話模式，所以最好的人機交互就是機器人以「人」的方式進行交互。

人類的語言以及表情能夠傳遞大量的情感資訊，所以目前仿人形機器人的研究主要集中在機器人的語言以及表情類比這兩個領域。但是，除了語言和表情，肢體動作也能夠傳遞人的情感資訊。

劉雲輝教授認為，相對於語言和表情，讓機器人模擬人的動作在技術上更容易實現，通過用體感設備讓機器人模仿人類的肢體動作，學習人類的行為模式，增強機器人的智慧，並最終實現自然的人機交互。

學習人類的行為模式，增強機器人的智慧，並最終實現自然的人機交互。