阿裡AI兩項技術刷新行業紀錄，為城市大腦，OR也為無人車？

李根發自 Palo Alto

量子位元報導 | 公眾號 QbitAI

阿裡AI又有什麼新進展？

近日，在全球權威機器視覺演算法排行榜KITTI刷新了排名，阿裡巴巴人工智慧研究機構iDST奪得行人檢測單項冠軍。

與此同時，在知名的行人再識別資料集Market1501中，他們也取得重大突破，首位命中率提升至96.17%，位居世界第一。

行人檢測、行人再識別是交通管理、城市平安、無人駕駛等領域的兩項核心基礎技術。

行人檢測要求機器能夠從圖像或者視頻中判斷是否有行人，行人在哪裡；行人再識別則要求機器能夠識別出特定人員的所有圖像。

在景區商場人流預測、人群個性化分析、行人交通安全、無人駕駛、尋找丟失老人兒童等應用上，

這兩項技術可以發揮巨大的作用。

阿裡巴巴iDST副院長、IEEE Fellow華先勝

“這並非簡單的人臉識別。 ”阿裡巴巴iDST副院長、IEEE Fellow華先勝說，在實際的城市場景下，大多數攝像頭拍攝到的圖像看不清人臉，

但通過行人的整體和局部特徵則可實現人員的識別。

然而，實際場景中遮擋、光照、拍攝角度、拍攝距離、人物姿態等因素的變化，以及攝像頭設備的不同，對行人檢測和行人再識別的準確性會提出極大挑戰。

具體解決方案上，華先勝領導的機器視覺團隊採用了以下幾項技術創新：

在行人檢測技術方面，提出了基於目標尺寸分級的級聯檢測網路，並基於動態投票和迴圈推斷的邊界框定位策略，重點解決行人檢測問題中存在的目標尺寸浮動大、語義特徵差異大、遮擋、形變且定位不准等問題。

針對小尺寸目標的檢測，利用了面向不同目標尺寸級別的多分支網路結構，充分發揮感興趣區域的上下文資訊提升網路特徵提取的能力，

同時在目標定位的問題中採用交叉熵正則約束來優化邊框定位準確度。

在行人再識別方面，提出了基於局部細細微性資訊和全域粗細微性資訊相結合的識別網路，並引入了不同攝像頭下特徵表達一致性的約束，用於多攝像頭下的行人再識別任務。

網路結構設計上，利用超分辨模組和特定的人頭、上半身和下半身注意力網路和識別網路來得到更清晰的局部細節特徵，解決行人全域特徵中存在的尺寸影響大、清晰度低等問題，引入全域特徵和局部特徵的動態融合機制解決局部遮擋問題。同時，採用距離正則約束來提高跨攝像頭下行人表徵的一致性。

除了行人檢測、行人識別之外， iDST還長期佔據著KITTI的車輛檢測世界冠軍，並在電腦視覺國際頂級會議TIP、ACM MM等發表了多篇論文。

阿裡方面表示，目前這些技術已經全部集成到阿裡雲ET城市大腦當中，並在多地落地使用。

華先勝說， “正如60年代的登月計畫帶來了通訊技術、生物工程技術大爆發一樣，

城市大腦已經成為世界頂尖的科技創新的平臺，前所未有的難題倒逼科學家們創造前所未有的技術”。

此前不久，城市大腦還正式成為國家四大人工智慧開放創新平臺之一，未來將吸引全球頂尖的研究機構共同參與創新。當前阿裡雲ET城市大腦已經在杭州、蘇州、衢州、烏鎮等地落地。

不過阿裡並未提及自動駕駛方面的應用和進展，行人檢測、行人再識別在自動駕駛的重要性不言自明。此前還有機器視覺公司憑藉KITTI奪冠來證明自己的無人車研發實力，就是現在無人貨車領域大熱的圖森未來。

但在國內外巨頭紛紛加碼自動駕駛的喧囂裡，阿裡始終沒有透露無人車領域的野心。

對於機器視覺倒是十分重視，內部研發自不必言，外部投資方面，阿裡集團旗下的螞蟻金服投資了曠視科技，而阿裡集團之前還傳出了15億元投資商湯科技的消息。

— 完 —

誠摯招聘

內部研發自不必言，外部投資方面，阿裡集團旗下的螞蟻金服投資了曠視科技，而阿裡集團之前還傳出了15億元投資商湯科技的消息。

— 完 —

誠摯招聘