AI+時代，淺談產品經理對圖像識別技術的閾值控制

首先撰寫本篇的目的：

當下每天看的到一個詞：AI，滿眼皆是AI的階段，我們產品經理應該如何瞭解到AI的技術脈絡和市場需求大勢！AI不是新的概念，

再次起來是因為有新的突破。

創新工廠的李開複博士說現在是技術從業者創新的時代，百度聯合創始人同時也是36K的投資人也說當今是技術人員創業做產品的最好時代，那麼我們產品經理究竟知道AI的哪些技術呢，本篇著重淺析一下AI+時代的圖像識別技術。

在AI領域之中，圖像識別技術佔據著極為重要的地位，而隨著電腦技術與資訊技術的不斷發展， AI中的圖像識別技術的應用範圍不斷擴展，如LineLian所見過的IBM的Watson醫療診斷、各種指紋識別、及常用的支付寶的面部識別以及百度地圖中全景衛星雲圖識別等都屬於這一應用的典型， AI這一技術已經應用於日常生活之中，圖像識別技術將來定會有著較為廣泛的運用，

而為了保證AI中的圖像識別技術能夠較好地服務於AI+時代的幾個重要產品領域，正是本篇就AI中的圖像識別技術展開具體研討的目的所在。

其次圖像識別概況：

為了較好完成產品經理理解AI中的圖像識別技術的本源，我們首先需要深入瞭解圖像識別技術。作為智慧領域的重要組成部分，圖像識別的發展先後經歷了文字識別、數位影像處理與識別、物體識別三個發展階段，而在AI+時代的圖像識別技術中，其本身所具備的功能早已超過了人類的極限，這也是AI的圖像識別技術能夠在各個垂直產品領域實現較好應用並幾乎成為標配的原因所在。

最開始產品經理要明白圖像識別技術本身的原理並不算太過複雜，

資訊的處理是這一技術的關鍵點所在，由於應用電腦實現的圖像識別技術本身與人眼識別並不存在著本質的差別，這就使得圖像識別技術同樣需要根據自身對圖像的記憶完成具體的識別工作。在人類進行圖像識別的過程中，人類的大腦會將圖像的特徵進行提取，並結合大腦中以往對各類圖像的認知判斷自身是否對圖像存在過印象，這就是人們能夠在觀看一張圖片後快速對其識別的原因所在。結合人類識別圖像的原理，在電腦進行的圖像識別中，電腦首先就能夠完成圖像分類並選出重要資訊、排除冗餘資訊，根據這一分類電腦就能夠結合自身記憶存儲結合相關要求進行圖像的識別，

這一過程本身與人腦識別圖像並不存在著本質差別。對於圖像識別技術來說，其本身提取出的圖像特徵直接關係著圖像識別能否取得較為滿意的結果。值得注意的是，由於電腦歸根結底不同於人類的大腦，所以電腦提取出的圖像特徵存在著不穩定性，這種不穩定性往往會因為電腦提取圖像特徵的明顯與普通影響圖像識別的效率與準確性，由此可見圖像特徵對於AI中圖像識別技術的重要意義。

再則圖像識別分析：

對於當下AI+時代的圖像識別技術來說，神經網路的圖像識別技術與非線性降維的圖像識別技術是最為常見的兩種圖像識別技術， LineLian將對兩種常見的AI圖像識別技術進行詳細分析。

第一：神經網路的圖像識別技術

想要深入瞭解非線性降維的圖像識別技術，

我們就必須理解何為神經網路，這裡的神經網路全稱人工神經網路，其本身指的是在現代神經生物學研究基礎上提出的模擬生物過程以反映人腦某些特性的計算結構，雖然我們使用了模擬這一名詞，但事實上神經網路本身並沒有完全模仿人類的神經網路，其本身只是通過對人類神經網路的抽象、簡化和類比實現相關計算結構效率的提升。

對於神經網路的圖像識別技術來說，其能夠實現圖像的識別主要得益於神經網路學習演算法的運用，而在應用神經網路進行的圖像識別中，我們首先需要對相關圖像進行預處理，這一預處理主要包括真彩色圖像轉換為灰度圖、灰度圖像的旋轉與放大、灰度圖像的歸一化等內容。為了保證神經網路能夠較好地實現圖像識別，我們還需要針對圖像識別的領域與物件完成具體的神經網路設計，這一設計主要包括輸入層設計、隱含層設計、輸出層設計、初始權值的選取、期望誤差的選取等五個方面。在輸入層設計中，我們需要根據圖像識別物件的需要確定求解的問題與資料表示方式，而在本篇進行的研究中，為了我們產品經理理解，LineLian將輸入層統一設計為16×16圖像樣本尺寸縮放大小，256 維網路輸入需要；而在隱含層的設計中，我們需要確定隱含層的數目與隱含層單元數的選擇，當下業界已經確定了隱含層神經元數目的增加能夠保證誤差精度的降低，所以適當時候增加隱層數目就能夠較好地完成神經網路的設計，而在隱含層單元數的選擇中，我們可以參考經驗公式 L=√M+N +a,L=log2N，這樣就能夠有效避免神經網路泛化能力較弱，對於訓練外樣本識別率降低的問題出現，公式中的 M 代表的是輸出層神經元數目，而 N 則代表輸入層神經元數目。值得注意的是，通過刪除那些影響較小的隱含層單元能夠較好地提高神經網路的自身性能，但結構選定花費時間較長是這一方法的缺陷所在；在輸出層的設計中，一般會選擇多輸出型作為神經網路的設計；而在初始權值的選取中，為了滿足神經網路在學習過程中的較好收斂，初始權值一般選為（-1,1）之間的亂數；而在期望誤差的選取中，其本身需要參考訓練時間與預期誤差值，這裡LineLian選擇 0.001 作為期望誤差值。

在完成神經網路的設計後，我們還需要進行神經網路的訓練才能夠保證其較好的滿足圖像識別需求，為了保證這一設計的較好實現，LineLian選擇在 MATLAB7.0 中使用函數 newff創建一個兩層網路，這一網路包括 1 個輸出神經元、16×16 個輸入、26 個單元的隱含層，學習函數則選擇了 learngdm，初始學習速率為 0.01 ～ 0.6、訓練性能函數“mse”、訓練指標 0.001、訓練最大循環 2500。

在完成上述提到的神經網路設計與訓練後，我們就可以著手對其進行應用實驗，在這一實驗中筆者應用這一神經網路對 26 個手寫英文字母的圖片進行了識別，下表為這一識別的識別結果，結合該表我們能夠發現，不同節點數目會直接影響神經網路圖像識別的識別率，而 26 個隱含層節點數能夠較好滿足圖像識別的需求，下圖為隱含層為 26 時神經網路訓練的誤差性能曲線及訓練時間。結合這一結果我們可以斷定，神經網路識別技術能夠較好滿足手寫字母的識別，其本身在這一識別的過程中體現了準確、快速、較強抗干擾能力等特點，這些特點使得其本身能夠憑藉著學習演算法較好地應用到更多複雜的圖像識別中，更好地為我們垂直領域的產品提供服務。

第二：非線性降維的圖像識別技術

除了神經網路的圖像識別技術外，非線性降維的圖像識別技術也是當下AI時代較為常用的圖像識別技術形式。對於傳統應用電腦實現的圖像識別技術來說，其本身屬於較為高維的識別技術，這種高維特性使得電腦往往在圖像識別的過程中承擔著很多不必要的負擔，這種負擔自然會影響圖像識別的速度與品質，非線性降維的圖像識別技術就是能夠較好實現圖像識別降維的技術形式。

在非線性降維的圖像識別技術出現前，業界最常採用的是線性降維的圖像識別技術，這種技術本身具備著簡單易於理解的優點，但在實際應用中人們發現，線性降維的圖像識別技術存在著計算複雜度高且佔用相對較多的時間和空間特性，也使得線性降維的圖像識別技術不能夠較好地滿足各產品領域圖像識別的需要。對於非線性降維的圖像識別技術來說，其本身能夠在不破壞圖像結構的前提下實現其自身的降維這就使得圖像識別技術的識別速度與精度能夠實現較好的提升。例如在人臉識別系統中，以往受圖像維度較高的影響，人類識別系統往往需要耗費大量的時間，電腦系統也往往會受到較大的“摧殘”，這主要是由於人臉在高緯度空間中存在的分佈不均勻特性所致，而在應用非線性降維的圖像識別技術後，人臉圖形就能夠較好地實現自身的緊湊，這就使得人臉識別系統的工作效率大大提升，總的來說非線性降維的圖像識別技術能夠較好地為圖像識

別提供輔助，上文中LineLian提到的神經網路的圖像識別技術，也能夠在非線性降維的圖像識別技術的支援下更好地完成自身工作。

最後圖像識別技術的對產品領域的應用

隨著智慧型網路中的AI技術不斷發展，其本身將在產品資料安全、AI+醫療產品、AI+直播產品、AI+社交產品等垂直領域產生重要的產品應用。

之前人機圍棋大戰，最終人類頂尖棋手李世石以 1:4 不敵 Google 出品的人工智慧 AlphaGo。其核心原理採用了多層神經網路對圖像進行分析，同時運用深度學習演算法總結規律，最終得出戰勝人類高手的棋招。

圖像鑒別，10000 個場控都幹不來互聯網的開放不僅帶來了自由，同樣也成為垃圾資訊的溫床。最為人熟知的一個職位叫做“鑒黃師”，代表人物自然是“唐馬儒”，但實際上“唐馬儒”再多也滿足不了現在對於圖像鑒別和挖掘的需求。最好的例子就是前不久爆出的“直播造人”，視頻和直播類內容的興起使得對內容的鑒定需求呈幾何倍數增長。

直播對於審核的即時性要求太高，同時線上的直播數量大，一不小心違規的東西就上線了。傳統的解決方案是通過人力完成，所需要的人數會與主播成一個比例。通常都是好幾百人坐在螢幕前面持續對閃過的畫面進行篩選，如果發現不符合規定就進行人工處理。而AI+時代的產品趣向是利用AI圖像識別技術。

另外在公共安全領域中，人臉識別產品的應用就能夠較好的提高市場社會的安全性與便利性；而在醫學領域中，心電圖與 B 超的識別將大大促進用戶醫療事業的便捷；而在農業領域中，種子識別科技產品與食品品質檢測科技產品的應用將大大提高農產品的生產品質，例如我家種了幾十畝葡萄葡萄需要剪枝修果摘葉需要很多的勞動力，感覺很多環節可以通過圖像識別的機器來處理，粒徑不同的果粒，大小不一的葉片，高度不同的枝條，我總覺得可以通過圖像對比來區分，篩選，這樣的AI圖像識別機器人才是剛性需求。在日常生活中圖像識別技術在冰箱中的運用將大大提高用戶生活的便利性，這一應用能夠實現自動冰箱食品清單生成、食品保鮮狀態的顯示、食物最佳儲存溫度的判斷等功能，這些將大大提高用戶的生活品質。在未來科學技術的不斷發展中，AI的圖像識別技術還將實現更為長足的發展，而這一發展也將能夠更好地接受圖像識別技術產品所帶來的服務，最終大大提高使用者的生活品質。

作為一門科技含量較高的新興技術，AI的圖像識別技術已經與使用者的生活緊密結合在一起，而為了保證其能夠更好的為使用者提供服務，對於科技網路從業緊密相關的產品技術人員就必須大力推進AI圖像識別技術產品的不斷學習與創新，這對於我們產品經理未來創造的很多產品息息相關並將提高產品效率和切中使用者對產品的剛性需求。

產品思維是抓住機遇，需求一旦過氣了或者被競爭對手超越了產品想勝出是是十分困難的，只能跟隨市場的步伐去追市場的需求而反覆運算。而AI+時代的產品經理應該有的思維模式是作品思維，不僅僅是追隨需求，更多的是錘煉過濾並真金不怕火煉般的引領需求的潮流。

產品滿足使用者的需求有一個閾值，產品值低於閾值使用者會覺得了無生意，即產品一般般也即產品經理做了功能經理，產品值等於閾值產品功能基本滿足了使用者的需求，而只有產品經理駕馭了需求，把產品做成作品產品值才有可能高於閾值，任何時候產品經理應該學習到高於需求閾值的產品方法論。AI+時代圖片識別技術就是起點！

#專欄作家#

本文原創發佈于人人都是產品經理。未經許可，禁止轉載。

為了保證神經網路能夠較好地實現圖像識別，我們還需要針對圖像識別的領域與物件完成具體的神經網路設計，這一設計主要包括輸入層設計、隱含層設計、輸出層設計、初始權值的選取、期望誤差的選取等五個方面。在輸入層設計中，我們需要根據圖像識別物件的需要確定求解的問題與資料表示方式，而在本篇進行的研究中，為了我們產品經理理解，LineLian將輸入層統一設計為16×16圖像樣本尺寸縮放大小，256 維網路輸入需要；而在隱含層的設計中，我們需要確定隱含層的數目與隱含層單元數的選擇，當下業界已經確定了隱含層神經元數目的增加能夠保證誤差精度的降低，所以適當時候增加隱層數目就能夠較好地完成神經網路的設計，而在隱含層單元數的選擇中，我們可以參考經驗公式 L=√M+N +a,L=log2N，這樣就能夠有效避免神經網路泛化能力較弱，對於訓練外樣本識別率降低的問題出現，公式中的 M 代表的是輸出層神經元數目，而 N 則代表輸入層神經元數目。值得注意的是，通過刪除那些影響較小的隱含層單元能夠較好地提高神經網路的自身性能，但結構選定花費時間較長是這一方法的缺陷所在；在輸出層的設計中，一般會選擇多輸出型作為神經網路的設計；而在初始權值的選取中，為了滿足神經網路在學習過程中的較好收斂，初始權值一般選為（-1,1）之間的亂數；而在期望誤差的選取中，其本身需要參考訓練時間與預期誤差值，這裡LineLian選擇 0.001 作為期望誤差值。