您的位置:首頁>科技>正文

阿裡巴巴華先勝:AI+強大算力給城市裝上智慧大腦

AI 科技評論按:3 月 31 日, 由雷鋒網主辦的AI盛會 ——「2018中國人工智慧安防峰會」, 在深圳科興科學園國際會議中心順利召開。

下午場中, 阿裡巴巴集團副總裁、達摩院機器智慧實驗室副主任華先勝博士在大會上發表了主題為《城市大腦中的的大規模視覺智慧》的演講報告。

華先勝作為視覺識別和搜索領域的國際級權威學者, 獲得過美國電腦協會 ACM2015 年度傑出科學家、MIT TR35 大獎(全球 35 位 35 歲以下的傑出青年創新人物)等榮譽, 也曾擔任 ACM Multimedia 大會的程式委員會主席。 現任阿裡巴巴集團副總裁, 達摩院機器智慧實驗室副主任。

華先勝在演講中介紹到, 阿裡巴巴在兩年前就已經有兩個團隊開始探索實現城市智慧大腦。 當前AI技術的發展、電腦算力的不斷提升以及每天城市資料的超大規模彙聚, 都促使著城市智慧大腦的飛速發展。

華先勝表示, 城市智慧大腦的核心就是利用不斷發展的AI技術和逐步增長的計算能力, 來挖掘城市中國大量異構資料不可替代的價值。 這種不可替代的價值體現在, 通過分析這些城市資料為城市的管理和服務進行全面、即時的優化, 從而讓整個城市的管理和服務更加的便捷和靈活, 同時對城市的安全管理也有很大幫助。 他期望城市大腦最終能成為一個城市像水煤電一樣的基礎設施。

以下是華先勝的演講實錄,

AI 科技評論做了不改變原意的整理與編輯:

華先勝:我之前講城市大腦講了很多次, 今天是第一次在安防的會議上講, 我想我從人工智慧的角度來看安防問題, 或許能給大家帶來新的思考。 另外一方面我今天要講的內容也是我們團隊經過兩年的時間和交警、公安一起摸爬滾打出來的技術點、應用場景和系統, 也希望能給大家帶來一些啟示。

「城市大腦」這個詞是兩年前提出來的, 是怎麼提出來的呢?它的背景其實就是 AI 技術的發展、算力的提升和資料超大規模的彙聚。 這些就使我們在想, 可不可以為城市安裝一個大腦, 去挖掘這個城市的價值, 它的核心是, 用不斷進展的 AI 技術和逐步增長的強大的計算能力,

挖掘城市裡面大量異構資料不可替代的價值。

這個價值體現在什麼方面?可以從不同的角度來講, 首先是資料智慧助力城市管理和服務, 全面、即時的優化和干預, 這帶來的必然是便捷和靈活。 往上一層就是城市管理領域、服務領域和產業發展領域的突破。 再往上提一層是城市安全管理。

那麼現今城市管理有哪些問題呢?我總結有三點:

第一點是盲人摸象。 城市中有很多交通和安防感知設備是單點、局部的, 且存在著設備損壞的現象, 資源利用效率很低。

第二點是燈下黑。 目前城市中安裝的攝像頭大多並非智慧攝像頭, 少量帶智慧分析的設備功能單一、安裝要求苛刻、成本高;大量的攝像頭目前利用率極低。

第三點是霧裡看花。

已有的感知手難以發現現象背後的本質原因• 視頻是即時、直觀的, 未被有效利用。

為了解決這些問題, 我們希望聚合整個城市的各種資料, 尤其是視頻資料, 發掘它們的價值。 啟動這項目時我們面臨不少挑戰。 這些挑戰也可以總結為三點:

一是投入, 即處理城市產生的龐大資料所需要的的算力投入, 頻寬投入, 演算法研究投入等。

二是價值, 我們能從這些資料中挖掘到哪些價值?這些價值是錦上添花還是不可替代?

三是不同, 即跟過去講的智慧城市、視頻監控有什麼不一樣?主要區別在哪裡?

什麼是城市大腦?

那麼到底什麼是城市大腦呢?

首先是資料。 城市每天產生大量的資料, 有攝像視頻、GPS、公交、微波等等,

這些資料都會被使用, 其中潛在價值最大的資料是視頻資料, 但這也是最難用的資料。

其次是感知, 或者叫認知, 即理解視覺裡看到的事件, 物體, 做到瞭若指掌。 之後是進行決策優化, 比如派遣交警處理監測到的交通事故, 感知全城的車、人流並進行全域優化。

另外就是搜索挖掘, 我們可以將全城的視覺元素髮到一個搜尋引擎裡面, 然後在索引裡面搜索全城攝像頭看到的視覺元素。

再者是預測, 我們可以根據歷史資料對交通或安全進行更為長期的預測。 然後根據預測出來的交通, 安全狀況來對城市進行干預, 緩解城市擁堵, 事先為市民提供更好的出行建議等。

這是整個城市級別的全域智慧, 我們把這樣一套系統叫做城市大腦。 目前以交通和安全為重要應用場景,之後會拓展至環保、能源、土地等領域。限於時間,我下面只針對以上感知、搜索和預測這三方面展開來講一講。

感知

城市大腦的基礎層是感知層。城市感知層的發展經歷了很多階段。最早是無感無知,那時候想知道發生了什麼需要到現場去瞭解;後來是感而不知,很多攝像頭和錄影帶,但都需要人來監控;再後來是感而略知,攝像頭有了一點點智能。而我們今天要做的城市大腦則是要做到感而全面知,感而全量知,感而即時知。

1)全面

所謂全面,就是要對攝像頭看到的東西能全面地感知,能夠檢測識別移動的或者靜止的目標(例如車、行人等),分析出目標屬性(車牌、車型、性別、服飾等),同時還要求快、准、大小目標都能檢測,且對視頻品質、光照、天氣、夜晚等具有較高的魯棒性。

為達到這個目標,我們做了一個高效全尺寸多目標檢測的演算法,在車輛檢測和行人檢測方面效果極佳。基於這個結果,我們贏得了兩項比賽的第一名,第一個是車輛檢測,在榜單第一名持續了一年時間。第二個是行人檢測,持續了幾個月第一名。

除了感知人、車、物以外,還必須要感知事件。平時車流都是正常通行,這樣的資料是大量的,而異常資料一般是稀少的。所以首先我們為正常事件建模;當異常事件出現時,它就會有明顯的回應。基於時空異常的檢測,我們可以檢測到車與人相撞、車與車相撞、車與路相撞,人與人相撞等等。

2)全量&全時

剛才講了兩個事情,一個是物,一個是事。這裡面有一個很大的事情,我們號稱要在雲端處理,到底能不能算得過來?在雲端的計算能力有多強?這涉及到全量和即時這兩個指標。

背靠阿裡雲,我們建立大規模即時處理平臺並沒有那麼困難,但由於處理的資料量非常大,計算也並不是一件容易的事。並且還要考慮使用大量機器所帶來的成本問題,所以我們一直在提高系統的性能。目前我們用了 2000 台,性能已經比第一版提升了 20 倍,並有望在加入新硬體後繼續提升好幾倍。

關於城市大腦,我具體舉個例子,也是我們即將發佈的一個產品,叫做機器代替交警巡邏。當前城市中存在著大量沒有智慧的球機,我們今天的工作就是讓城市中大量的球機變得有智慧,不管是交通違法還是交通事故,都可以讓它進行監控。這是一個即時監控到的路況視頻。在幾秒中內我們就檢測到這個地方發生了交通事故,用的時間和交警差不多。其實還有很多,例如行人闖禁、擁堵、摩托車闖禁、夜間事故等,及時目標非常小,我們依然可以檢測出來。現在杭州有 200 多個試點球機,每天會有好幾千起事件被發現,這遠遠超過了交警的能力。

這個工作有一個特點,就是充分利用城市既有的監控設施發揮它最大的效率,不需要再安裝一個攝像機;不管你的視頻的品質怎麼樣,我們都可以解決問題。

這是在杭州城市大腦的實踐,我們在不增加外場設備、不改變現有鏈路的情況下,通過視覺雲上的計算,使得設備的能力得到很大的提升,我們現在也在做AI晶片的線上測試,會進一步減少計算的消耗,可以提升到很高的處理能力。

搜索和挖掘

再往後就是「搜索和挖掘」,這是即時進行處理的。

我們在互聯網上找東西可以通過搜尋引擎來找;如果我們把城市裡看到的人、車、路、物、事等等全部放到搜尋引擎裡去,那麼城市的管理者要找城市發生的事情,就可以直接通過城市的搜尋引擎來找了。

做這件事情有兩大挑戰。

第一個挑戰是系統的挑戰,也就是說你要去索引那麼大量的資料,怎麼才能夠讓索引的搜索足夠快。這部分是阿裡擅長的,我就不再細講。

第二個挑戰是用什麼東西去描述我們關心的這些物件。當然我們可以用結構化的資訊來做,例如車是什麼顏色、什麼牌子,人是男是女等等。但我們這裡用的是特徵的方式來表示,它是一串數位,這串數位就代替了你所關心的車和人的特徵,我們通過這個特徵進行目標的索引和檢索。怎麼樣找到合適的特徵呢?怎麼樣把一個圖片、一個目標變成一個特徵呢?這是核心的課題。事實上可以有很多方法,例如通過學習方法、神經網路方法、目標函數設計等。

這裡我只介紹我們前不久的一個工作,就是 Part-Level 特徵學習。通過這個學習,在索引和比較時,學習到的特徵就會成為重要的指標。通過這種方法也可以發現一些獨特的地方,例如我們做商品車檢索時比較簡單,同一牌子和型號就可以認定是同一產品了;但是在安防的場景下,不同人的車是不同的東西,這時候需要發現它的細小的差別,而且要自動發掘它。我們這些工作應用在行人 Re-Id 測試中,目前結果是最好的,達到了 97%,而人類的最好結果是 94%。

預測

接下來講「預測」。雖然我們無法預測某個個體的行為,但是我們可以預測整體的趨勢。

我們在蘇州做了這樣一個實驗,預測車流在 20 分鐘、30 分鐘後的變化。我們平時經常使用的 GPS 導航,事實上它僅僅是根據當前車流給你選擇的一條最優路線,而並沒有車流預測;由於交通狀況一直在變化,所以可能走著走著它就會給你建議不同的路線。顯然如果有了預測,GPS 的路徑規劃就可以做得更好了;如果預測時間更長的話,甚至還可以進行更好的干預。我們用深度學習的方法在蘇州做過一個預測車流 10 分鐘後變化的實驗,預測結果很好,錯誤率在 8%以內。

城市大腦的不同之處

在最後,我簡單講一下城市大腦與其他概念的不同之處。這主要也有三點:

第一,用大量異構城市資料、大規模計算和 AI,挖掘其不可替代的價值;

第二,城市大腦是在做人的智能不能完成的事情。城市中有些問題的複雜度、計算量已經沒有辦法用人力來完成,比如說紅綠燈的配置、眾多球機的觀測等,因此我們要通過城市大腦完成人不能完成的事情;

第三,希望城市大腦將來能成為一個城市的基礎設施,像水電煤一樣。

深度學習、資料、計算能力使得 AI 有了發展,這個發展使得我們去思考能不能為城市建造一個大腦,挖掘城市的價值,改變這個城市,改變我們在城市裡的生活方式。由於城市的環境是非常獨特的,它的資料量、計算需求,問題複雜性以及它對價值挖掘需求的量和迫切性使得城市可以成為一個平臺,或者說城市大腦可以成為一個平臺,去孵化更多的技術,在這個平臺上有更多的創新能夠發掘出來,使得一些科研的技術、實驗室的技術在這個平臺上得到錘煉,得到扎扎實實的實現。這也是為什麼「城市大腦」會被科技部選為首批四個國家人工智慧開放創新平臺之一。

目前以交通和安全為重要應用場景,之後會拓展至環保、能源、土地等領域。限於時間,我下面只針對以上感知、搜索和預測這三方面展開來講一講。

感知

城市大腦的基礎層是感知層。城市感知層的發展經歷了很多階段。最早是無感無知,那時候想知道發生了什麼需要到現場去瞭解;後來是感而不知,很多攝像頭和錄影帶,但都需要人來監控;再後來是感而略知,攝像頭有了一點點智能。而我們今天要做的城市大腦則是要做到感而全面知,感而全量知,感而即時知。

1)全面

所謂全面,就是要對攝像頭看到的東西能全面地感知,能夠檢測識別移動的或者靜止的目標(例如車、行人等),分析出目標屬性(車牌、車型、性別、服飾等),同時還要求快、准、大小目標都能檢測,且對視頻品質、光照、天氣、夜晚等具有較高的魯棒性。

為達到這個目標,我們做了一個高效全尺寸多目標檢測的演算法,在車輛檢測和行人檢測方面效果極佳。基於這個結果,我們贏得了兩項比賽的第一名,第一個是車輛檢測,在榜單第一名持續了一年時間。第二個是行人檢測,持續了幾個月第一名。

除了感知人、車、物以外,還必須要感知事件。平時車流都是正常通行,這樣的資料是大量的,而異常資料一般是稀少的。所以首先我們為正常事件建模;當異常事件出現時,它就會有明顯的回應。基於時空異常的檢測,我們可以檢測到車與人相撞、車與車相撞、車與路相撞,人與人相撞等等。

2)全量&全時

剛才講了兩個事情,一個是物,一個是事。這裡面有一個很大的事情,我們號稱要在雲端處理,到底能不能算得過來?在雲端的計算能力有多強?這涉及到全量和即時這兩個指標。

背靠阿裡雲,我們建立大規模即時處理平臺並沒有那麼困難,但由於處理的資料量非常大,計算也並不是一件容易的事。並且還要考慮使用大量機器所帶來的成本問題,所以我們一直在提高系統的性能。目前我們用了 2000 台,性能已經比第一版提升了 20 倍,並有望在加入新硬體後繼續提升好幾倍。

關於城市大腦,我具體舉個例子,也是我們即將發佈的一個產品,叫做機器代替交警巡邏。當前城市中存在著大量沒有智慧的球機,我們今天的工作就是讓城市中大量的球機變得有智慧,不管是交通違法還是交通事故,都可以讓它進行監控。這是一個即時監控到的路況視頻。在幾秒中內我們就檢測到這個地方發生了交通事故,用的時間和交警差不多。其實還有很多,例如行人闖禁、擁堵、摩托車闖禁、夜間事故等,及時目標非常小,我們依然可以檢測出來。現在杭州有 200 多個試點球機,每天會有好幾千起事件被發現,這遠遠超過了交警的能力。

這個工作有一個特點,就是充分利用城市既有的監控設施發揮它最大的效率,不需要再安裝一個攝像機;不管你的視頻的品質怎麼樣,我們都可以解決問題。

這是在杭州城市大腦的實踐,我們在不增加外場設備、不改變現有鏈路的情況下,通過視覺雲上的計算,使得設備的能力得到很大的提升,我們現在也在做AI晶片的線上測試,會進一步減少計算的消耗,可以提升到很高的處理能力。

搜索和挖掘

再往後就是「搜索和挖掘」,這是即時進行處理的。

我們在互聯網上找東西可以通過搜尋引擎來找;如果我們把城市裡看到的人、車、路、物、事等等全部放到搜尋引擎裡去,那麼城市的管理者要找城市發生的事情,就可以直接通過城市的搜尋引擎來找了。

做這件事情有兩大挑戰。

第一個挑戰是系統的挑戰,也就是說你要去索引那麼大量的資料,怎麼才能夠讓索引的搜索足夠快。這部分是阿裡擅長的,我就不再細講。

第二個挑戰是用什麼東西去描述我們關心的這些物件。當然我們可以用結構化的資訊來做,例如車是什麼顏色、什麼牌子,人是男是女等等。但我們這裡用的是特徵的方式來表示,它是一串數位,這串數位就代替了你所關心的車和人的特徵,我們通過這個特徵進行目標的索引和檢索。怎麼樣找到合適的特徵呢?怎麼樣把一個圖片、一個目標變成一個特徵呢?這是核心的課題。事實上可以有很多方法,例如通過學習方法、神經網路方法、目標函數設計等。

這裡我只介紹我們前不久的一個工作,就是 Part-Level 特徵學習。通過這個學習,在索引和比較時,學習到的特徵就會成為重要的指標。通過這種方法也可以發現一些獨特的地方,例如我們做商品車檢索時比較簡單,同一牌子和型號就可以認定是同一產品了;但是在安防的場景下,不同人的車是不同的東西,這時候需要發現它的細小的差別,而且要自動發掘它。我們這些工作應用在行人 Re-Id 測試中,目前結果是最好的,達到了 97%,而人類的最好結果是 94%。

預測

接下來講「預測」。雖然我們無法預測某個個體的行為,但是我們可以預測整體的趨勢。

我們在蘇州做了這樣一個實驗,預測車流在 20 分鐘、30 分鐘後的變化。我們平時經常使用的 GPS 導航,事實上它僅僅是根據當前車流給你選擇的一條最優路線,而並沒有車流預測;由於交通狀況一直在變化,所以可能走著走著它就會給你建議不同的路線。顯然如果有了預測,GPS 的路徑規劃就可以做得更好了;如果預測時間更長的話,甚至還可以進行更好的干預。我們用深度學習的方法在蘇州做過一個預測車流 10 分鐘後變化的實驗,預測結果很好,錯誤率在 8%以內。

城市大腦的不同之處

在最後,我簡單講一下城市大腦與其他概念的不同之處。這主要也有三點:

第一,用大量異構城市資料、大規模計算和 AI,挖掘其不可替代的價值;

第二,城市大腦是在做人的智能不能完成的事情。城市中有些問題的複雜度、計算量已經沒有辦法用人力來完成,比如說紅綠燈的配置、眾多球機的觀測等,因此我們要通過城市大腦完成人不能完成的事情;

第三,希望城市大腦將來能成為一個城市的基礎設施,像水電煤一樣。

深度學習、資料、計算能力使得 AI 有了發展,這個發展使得我們去思考能不能為城市建造一個大腦,挖掘城市的價值,改變這個城市,改變我們在城市裡的生活方式。由於城市的環境是非常獨特的,它的資料量、計算需求,問題複雜性以及它對價值挖掘需求的量和迫切性使得城市可以成為一個平臺,或者說城市大腦可以成為一個平臺,去孵化更多的技術,在這個平臺上有更多的創新能夠發掘出來,使得一些科研的技術、實驗室的技術在這個平臺上得到錘煉,得到扎扎實實的實現。這也是為什麼「城市大腦」會被科技部選為首批四個國家人工智慧開放創新平臺之一。

Next Article
喜欢就按个赞吧!!!
点击关闭提示