您的位置:首頁>科技>正文

觀點丨人工智慧產品化的關鍵是基礎架構和資料,而非演算法

圖片來自“視覺中國”

目前, 人工智慧經歷著魔幻般的炒作。 資料登錄作為亂七八糟的數位流的神經網路——或者黑箱, 並且輸出的資料得到徹底轉化,

就像魔術師從一個空帽子中變出一隻兔子。

這在實驗室是可能的, 甚至是通過乾淨、調試的資料, 在一台個人開發機器上也是可能的。 然而, 已經付出了很多很多努力, 為了把機器學習演算法擴展到類似於多使用者服務的東西上——換句話說, 有用的東西上。

人工智慧的關注度正在直線飛升, 其中不乏大量炒作, 而實際情況是人工智慧技術依然處於起步階段, 並且難以實現產品化。 從原型到產品, 需要克服很多新挑戰:比如訓練資料從何而來?訓練系統時人們如何存儲、組織、精煉並準備資料?誰可以檢測系統?安全性怎麼樣:如何管理和保護敏感資訊?我的硬體需要多快才能傳遞結果?性能瓶頸和併發障礙在哪裡?

魔術耍個不停。 突然你發現, 人工智慧代碼, 你所謂的王冠, 只是巨大複雜車機(buggy machine)上一個無足輕重的小齒輪。

Skymind是一家為企業提供人工智慧解決方案的初創公司, 其聯合創始人和首席技術官Adam Gibson說:把人工智慧產品化是一個不小的挑戰, 基礎架構是最難以解決的問題之一。

Skymind CEO和聯合創始人Chris Nicholson解釋說:部署人工智慧是一個複雜過程, 並且要分幾步走, 這和水流進一個個管道有些像。

原始資料就像液體, 在流入產品的管道之前, 需要數位化和聚集原始資料。 接著, 在使用Hadoop等被存儲之前, 資料流程需要通過工具Apache Kafka或者Apache Storm進行處理。 包括圖像、文本、聲音在內的資料需要被提取、轉化繼而格式化以用於向量計算, 並載入到用於訓練的神經網路。

訓練結束之後, 將使用更多的資料檢測模型的推斷代碼以查看其性能和精確度。 換句話說, 對於一個新近訓練的人工智慧, 你通過問題來查看其輸出是否和你的預期相一致。

在這一點上, 少許的調整、篡改和額外訓練可在正確的方向上推進軟體。 當系統達到標準時——精確度足夠高, 運行快到可以滿足不耐煩之人的需求——它被插入到一個更大的框架之中, 用戶從而可以直接或者通過API安全訪問系統。 一個典型的例子是Netflix或Amazon基於使用者資訊通過機器學習生成最佳推薦。

它並不止於此, 而最後一步是擴展。 目前為止我們描述的系統被打包進微服務(microservice)從而人工智慧可以在多台伺服器上數千次地——如果不是數十萬次——被調試以解決需求問題。

想像一個用於信用卡查腐的系統, 它要應對數百個都姓Purchas的人。

Gibson說:研究者並不知道或者關心這個, 他們只對更好的演算法感興趣, 而不是服務消費者。

Nicholson同意Gibson的觀點, 他說:研究人員對基礎架構和擴展並不感興趣。 這裡有一個很好的類比:想像一下數以千計的消費者向同一個客服人員打電話——這就是研究人員的工作方式。 他們就只有一個客服人員。 但是想像一下如果通用電氣收到了數以千計的電話, 其就不可能只安排一個客服人員。 你需要無限次複製客服人員以盡可能地滿足服務需求。

呃, 我只用雲

類似創業公司這樣的小型公司可能會在他們的人工智慧系統推斷階段大做文章,

並且虛晃(hand-wave)其他階段。 Gibson告訴The Register, 他們不會解決涉及所有基礎架構和擴展的資料量問題, 因此, 理想的做法是訴諸雲端, 但是, 隨著公司變大, 他們也需要擔心這些問題。

Skymind成立於2014年, 研發了一種用Java編寫的深度學習框架Deeplearning4j, 能與Hadoop和Spark融合。

諸如穀歌雲、微軟Azure以及亞馬遜雲這樣的雲平臺正競相將人工智慧作為一種服務提供給大眾。 他們為使用者提供預訓練模型, 通過將不同工具(比如圖像識別或自然語言處理)弄在一塊, 也為用戶提供一種生成更加定制化模型的辦法。

借助雲使用人工智慧模型既受約束也很昂貴。 神經網路反覆運算學習, 也要求在多個GPU上進行密集訓練。 借助雲來實現這些, 花費在1萬5千美元到3萬美元之間不等, Nicholson介紹說。

這麼做的好處就是小型團隊不用到處找懂機器學習的電腦科學家來將想法付諸現實。但是,也有不利的地方:受限於預先被打包的模型。事實上,這也是證明一家公司是否對人工智慧持嚴肅態度的辦法。人工智慧的炒作似乎不會減緩,吹噓這些方面也增加了上頭條或博得更多投資的機會。

一家公司如果打造人工智慧,要解決四個問題:人才、工具、資料和基礎架構。Nicholson說,需要有機器學習背景的人,電腦科學家以及駭客。要能解釋他們用的哪類演算法,如果使用雲,那麼,他們可能沒有同樣多的資料,也不需要考慮基礎架構問題。

如果他們不談論演算法和技術堆疊,那麼,這就是個警示。你很難認真對待這些人,因為他們啥都幹得出來。他們在logistic回歸中使用if-then卻稱其為人工智慧。

人工智慧不走大眾路線

從製藥貿易到政府部門,從不缺乏將人工智慧應用到資料中的商業興趣。不過,這並適合所有人,Nicholson和Gibson說。深度學習需要將訓練資料大量綁定以研發具有高性能的模型。

事實是,幾乎所有創業公司並不掌握足夠資料。公司也必須現實點。人們不得不跨過幻想階段,尋找一個可以解決的真正問題。

44

68

Nicholson介紹說。

這麼做的好處就是小型團隊不用到處找懂機器學習的電腦科學家來將想法付諸現實。但是,也有不利的地方:受限於預先被打包的模型。事實上,這也是證明一家公司是否對人工智慧持嚴肅態度的辦法。人工智慧的炒作似乎不會減緩,吹噓這些方面也增加了上頭條或博得更多投資的機會。

一家公司如果打造人工智慧,要解決四個問題:人才、工具、資料和基礎架構。Nicholson說,需要有機器學習背景的人,電腦科學家以及駭客。要能解釋他們用的哪類演算法,如果使用雲,那麼,他們可能沒有同樣多的資料,也不需要考慮基礎架構問題。

如果他們不談論演算法和技術堆疊,那麼,這就是個警示。你很難認真對待這些人,因為他們啥都幹得出來。他們在logistic回歸中使用if-then卻稱其為人工智慧。

人工智慧不走大眾路線

從製藥貿易到政府部門,從不缺乏將人工智慧應用到資料中的商業興趣。不過,這並適合所有人,Nicholson和Gibson說。深度學習需要將訓練資料大量綁定以研發具有高性能的模型。

事實是,幾乎所有創業公司並不掌握足夠資料。公司也必須現實點。人們不得不跨過幻想階段,尋找一個可以解決的真正問題。

44

68

Next Article
喜欢就按个赞吧!!!
点击关闭提示