深度學習當前面臨的一大熱點問題是很多深度學習的模型太大而不方便在移動設備和嵌入式設備上使用。
現在常見的模型比如圖像分類模型基本都在500兆以上, 自然語言處理的一些模型例如語言模型很多都在1G以上, 機器翻譯的模型也都是500兆以上。
而一個手機或者潛入式設備要載入一個500兆以上的模型基本不太現實, 因此當前深度學習面臨的一大挑戰就是如何把大模型變成小模型。 因為移動設備不僅僅是記憶體或者存儲空間的限制, 更多是因為能耗的限制, 不允許我們用太大的模型。
2017年2月2日, 位於美國西雅圖的 AI 創業公司 XNOR.AI 宣佈獲得來自Madrona Venture Group和艾倫人工智慧研究所中首次提出了 XNOR-Net 的概念。
這篇論文旨在利用二值化操作尋找到最優的簡化網路, 並分別介紹了兩種有效的網路:Binary-Weight-Networks 和 XNOR-Networks。 Binary-Weight-Networks 是對 CNN 中所有的權重做近似二值化, 可以節省 32 倍的存儲空間。 而且, 由於權重被二值化, 卷積過程只剩加減演算法, 不再包括乘法運算, 可以提高約兩倍的運算速度, 這促使 CNN 可以在不犧牲準確率的情況下在小存放裝置上使用, 包括可擕式設備。
XNOR-Networks 演算法則是對 CNN 中所有的權重和輸入同時做近似二值化, 如果卷積運算中的所有運算元都是二進位的, 那麼兩個二進位向量的點乘就可以等同於同或運算和位運算。 而這些操作天然就被CPU等通用計算設備支援,
此外, 如上圖所示, 在節省了幾十倍空間和幾十倍速度提升的情況下, Binary-Weight-Network和XNOR-Network的準確率精度下降並不顯著。
強悍的團隊
XNOR.AI團隊CEO Ali Farhadi是華盛頓大學電腦系教授, 同時也是艾倫人工智慧研究所的電腦視覺方向的負責人, 他在電腦視覺領域積累深厚, 同時是非常驚豔的即時物體檢測框架YONO的主要貢獻者, “YOLO”系統在2016年CVPR會議上的現場展示一度驚豔全場。
(YOLO的在CVPR 2016的現場演示 )
XNOR.AI的CTO Mohammad Rastegari是艾倫人工智慧研究所研究科學家, 也在電腦視覺領域有接近十年的研究經歷。
(xnor.ai CTO Mohammad Rastegari)
XNOR.AI團隊首次讓二值神經網路在ImageNet上面完了實驗, 在自主搭建的輕型神經網路框架 DarkNet 中實現了在 CPU 上 58 倍速度的提升,
XNOR.AI團隊還把 “YOLO”系統 的二值化版本在 iPhone 上面做到了即時探測, 也成為即時檢測的一大亮點。
事實上, 團隊還曾將 XNOR-Net 部署在價值 5 美元的 Raspberry Pi Zero 上, 通過連接一個攝像頭實現了即時視頻分析, 他們官方視頻裡展示出的即時檢測分析效果十分引人注意, 強烈的震撼了小探的小心臟。
如果在類似於 Raspberry Pi Zero 這樣的移動設備上都能做到即時物體檢測, 這項技術在其他領域中也潛藏著巨大的商業價值。
XNOR.AI的願景是普適人工智慧
由於他們的二值化神經網路, 除了帶來的數十倍的記憶體減少和計算提升, 二值化操作天然就被CPU等通用計算設備支援,
在採訪中, Mohammad說道, 他們的深度學習技術能夠用在計算能力和記憶體都有限的設備上, XNOR.AI針對的市場是普適計算的場景, 他們希望未來所有的智慧設備都可以運行他們的深度學習演算法。
而CEO Ali Farhadi曾說:“可以設想, 未來每個街道拐角, 價值5美元的攝像頭, 都能識別看到的景象, 瞭解正在發生的事情;而我的手錶也能真正聽懂和處理指示。 ”
(在手機上即時物體檢測)
Mohammad表示物體的即時檢測是一個非常難的問題, 他們用視頻演示了他們的強悍能力, 目前不少即時檢測都通過將視頻流傳到雲端來做檢測,
Mohammad也表示這不代表他們只會局限在電腦視覺領域, 目前他們能夠對主流的深度學習網路比如RNN和CNN進行二值化操作。 除了視覺領域, 還有自然語言處理都有望即時化操作。
作為成立才一個月的公司, Mohammad還在探索自己的商業模式, 但已經有大量廠商和他們聯繫了, XNOR.AI的願景是普適人工智慧, “AI on every device everywhere”。
有相關資源並且對XNOR.AI感興趣的投資人, 歡迎聯繫矽谷密探: contact@svinsight.com