作者丨TOMASZ TUNGUZ, 紅點資本合夥人
編譯丨拓撲社 原野
信任在軟體行業真的再重要不過了, 一旦信任出現了的動搖, 那麼用戶或者買家立刻掉頭走人,
「這個軟體有些時候連我的都存儲不下來」;「這個資料庫三天兩頭的崩潰」;「這家網站頻繁地宕機」, 任何一句抱怨的話就會直接將你和你的產品送入深淵。
幾乎每一家公司都在存儲資料上面臨各種挑戰。 但是, 以機器學習為重點的初創公司所面臨的挑戰遠不止這一點, 他們還需要面臨「概率」帶給他們的信任危機。
Nate Silver 曾利用機器學習, 成功預測了奧巴馬在 2008 年選舉上的大獲全勝, 在各個選區裡的預測正確率都近乎 100%, 這也讓概率論再次站在世人面前大放異彩。 原來真實世界的運行跟學院派的概率論是能對接得上的啊。
而 8 年之後的今天, 我們新總統的誕生, 卻出現在了機器預判之外。
很多機器學習系統同樣也依賴於概率。 一個程式師將一個「閥值」編譯進了機器學習模型中。 這個系統會利用這個「閥值」去決定目前的這個概率是否足以讓我們得出結論。 有些時候, 它也被稱之為「信心指數」。
無論是「閥值」, 還是「信心指數」, 其實都代表著某件事實成立的最低標準, 只有邁過這個門檻, 才能得出一個結論。
比如如果要確認它是張圖片, 至少「最小概率(minimum probability) 是這裡面有一隻貓;而「sacre blue」這個詞的「信心指數」應該是將它翻譯成「我的天呐」, 而不是按照字面意思來說:「神聖的藍色」。
在系統得出結論, 給出推薦之前, 這個標準成立的可能性(概率)要達到多少?80%?90%?95?
這個最小概率如果門檻太低, 那麼就會出現「1 型錯誤」, 也就是「誤報」;如果最小概率的門檻拉得太高, 那麼會帶來「漏報」, 也就是電腦領域中的「漏報」, 也就是「2 型錯誤」
機器學習領域的 SaaS 公司必須從中拿捏其平衡, 不能太緊, 也不能太松。 如果一個產品向一端太過傾斜, 那麼產品就會失去使用者的信任, 最終毀掉一家公司。
那麼如何去應對「用戶有可能對你的產品失去信任」這個風險呢?目前「聊天機器人」(chatbot)的湧現, 讓我在人機互動方面得出了一個原則:正確地引導, 塑造使用者對一個系統能力的期待值, 這是至關重要的。 更準確地說,
除此之外, 如果說還要做什麼來降低風險的話, 你必須清楚你的機器如果犯錯, 會在哪方面出錯, 其性質有多嚴重, 用戶在意的是什麼。 機器有可能把一些無關的資訊推送給使用者, 這是錯誤 1;機器把使用者媽媽發來的郵件給標記成為了垃圾郵件, 這是錯誤 2, 很明顯這兩種錯誤的嚴重性不在一個水平線上。
下一代機器學習產品, 其關鍵就落在了誰能最快地獲得用戶信任上面。 而在「提示錯誤」、「遮罩郵件」、「翻譯詞語」、「識別圖片」等工作上面, 產品必須自身決定臨界概率的大小到了多少, 才能得出結論。
此事重大, 不可不察。
本文為拓撲社編譯, 未經同意不得轉載或引用
尋求報導&合作請聯繫:tobshe@itjuzi.com