華文網

用機器學習的經驗指導人生:如何實現學習效率最大化

大資料文摘作品,轉載要求見文末

原作者 | Raimundo Manterola

編譯團隊 | Aileen,

黃文暢,範玥燦

如果要是我告訴你我們可以依照“訓練”電腦的經驗來指導人類學習新的技能,你覺得怎麼樣?

在這篇文章中我不會太深入的分析機器學習是如何工作的。但是,在介紹如何把AI應用於你自身的學習之前,我希望你能瞭解一些基本的概念。

---------------

手把手輔導,教會為止

距離課程開始僅一周

用雲實驗環境

完成第1個資料科學專案:

美國大選資料分析與視覺化

電商銷量預測

海量文本分析

3月18日開課 小班輔導

名額有限 欲報從速

詳情見文末

---------------

我們都喜歡狗狗的照片,它們讓我們想起那些與這些這些四條腿的小夥伴們一起玩耍度過的清晨。

我們可以很容易的在照片中認出狗狗,因為我們已經看過千百次它們長什麼樣子。

可是如果一個外星人因為好奇狗狗長什麼樣而綁架你,你會怎麼辦?他強迫你教他如何識別狗狗,這樣他就可以綁架一隻帶回他的星球。

請記住,他完全不知道狗狗長什麼樣。你要怎麼做?

你可能需要告訴交給他一些“規則”:狗狗有四條腿,兩隻眼睛,兩隻耳朵…可是,這可能沒有想像的那麼容易,因為有很多很多的規則。試想一下,你要怎麼教會他區別狗狗和狼?這真的很難。

這個設定一些規則並照之遵守以得到想要結果的學習過程叫做 “演繹學習”。可是難點就在於很難顧全所有的可能的變化。

想像一下,除了展示給他一千張狗狗的照片,另外如果給讓他看一千張照片都不是狗狗的照片。那事情就變得容易很多了!

我們人類正是這麼學習的。通過千百次的觀察我們知道了狗狗長什麼樣。當我們的大腦看到一些它可以認知的東西的時候,某些神經區域就會顯示出逐漸增加的活躍性。但根據國家研究委員會出版的《人們如何學習》一書,人類在出生時並沒有這些神經特徵。

隨著年齡的增長,有了越來越多的經驗,我們的大腦就開始整理如何建立這些聯繫。

神奇的是,機器學習正是這麼工作的。當建立一個機器學習模型的時候,我們不會教他“規則”。而是提供給誒他大量的案例,有的可以得到想要的結果,有的不可以,然後就讓電腦自己整理,就像我們的大腦會做的一樣。

大部分人認為AI是一個使工作自動化的工具,

可是讓人們專注于建立像人類行為一樣的演算法理論。舉例來說,臉書(Facebook)的面部識別演算法理論比人類的識別能力還要強。可是如果我們反向而為呢?

機器學習是如何工作的?

假設沒有空調也沒有泳池的你實在是難以忍受這炎熱的夏天,你決定在鄰居不在家的時候偷偷的潛入他家用他的泳池。

你已經知道大多數時候他都不在家,因為他打網球。所以你決定應用你的AI技能來建模,根據天氣挺起情況預測他是否會打網球。

經過幾周對他的觀察他和並收集了相關資料,你總結了如下表格:

既然你有了好的、有代表性的資料,你便可以開始建模。

有很多種不同的方法,我將用一種叫做決策樹的技巧來簡單講解歸類問題。

你覺得在上圖表格中哪個那個變數會影響你鄰居要不要打網球的決策?可能是天氣情況。

要弄清如何構建決策樹,我們的模型會找出哪那些變數可以將資料最好的分割開來。把天氣情況放在決策樹的根部,然後我們就可以開始用同樣的方法來建立更多的枝杈,直到決策樹看起來如下圖:

訓練完模型之後,我們就會得到一個可以幫助我們預測鄰居是否在家的決策樹。

你可能會想:“這到底會怎麼幫助我學習一個新的技能?”

如果你想要訓練一個好的理論可以用來使你的學習收益最大化,有一些主要的規則需要遵守。

如果你想瞭解更多關於機器學習的知識,這裡有一些很棒的資源。

◆ 練習,練習,再練習——收集大量的資料

不是當你已經優秀了才去練習,而是不斷地練習幫助你變得優秀。

——Malcolm Gladwell

這一條比較簡單——練習的越多,你就會變得越好。

我們都聽過“大資料”這個時下很火的詞。可是只有很少的人真的瞭解他真正的含義。根據牛津詞典的解釋,大資料是:極其大的資料集,需要用電腦來分析並展現出它的特徵、趨勢和聯繫,尤其是與人類行為相關的部分。

大資料是用很多很多的例子來訓練一個模型。

根據牛津關於技能學習的神經機制的研究,當我們開始學習一些新東西,這個過程中包含了很多神經活動。但當我們反復練習同一個任務的時候,每一次完成他所需要的腦力就會逐漸減少。

當你建一個機器學習的模型時,這會很大程度上決定你演算法表現的好壞。你需要很多很多的案例才能得到一個好的模型。相較於給外星人看幾張照片,給他看更多的案例會讓他學習的更好。

但是不變的是,基於大量的資料建立簡單的模型勝過只有少量資料的複雜模型。

——Alon Halevy, Peter Norvig, and Fernando Pereira, Google. The unreasonable effectiveness of data.

我們花了很多時間來學習相關的課題,比如閱讀,看視頻,向人們請教等,但在真正上手練習之前還是會猶豫很久。

唯一能讓你有所提高的辦法就是去實踐。

◆ 不要死記硬背:避免過度擬合

回顧在學生時代的時候,你是否又有因為死記硬背某個數學題目的解法,卻因為考試中的題目與記下來的題目稍有不同而解不出來?這其實是同樣的概念,那一點點的不同就可以讓你的方法一文不值。

如果你死記硬背一個流程同樣會如此,我們會失去將問題普適化、解決沒有見過的情形的能力。

在機器學習過程中,這個叫過度擬合。當你訓練你的模型通過記憶來學習,就會發生這樣的事情。這其實很危險,因為如我們如果用同樣的資料集來測驗,可能會有100%的擬合度,但當遇到沒有見過的問題的時候會表現的很差很差。

當我們知道有辦法可以點擊一下滑鼠就解決問題,就沒有必要死記硬背了。

這就是為什麼很多人學不會程式設計。他們會因為有太多的東西去要記憶而失去信心。可是,這正是問題本身——我知道的所有擅長程式設計的人都很會使用“穀歌”。

根據Eric Mazui (哈佛大學物理學教授,同時也是Peer Instruction的作者)的研究,一個互動式的學習會讓學生對問題的理解力比死記硬背的學習高三倍。

這個道理很簡單,強迫你自己在沒有指導的情況下學習。當你自己弄明白了一些道理之後,你就可以回顧整個過程,這樣可以避免沒有理解就死記硬背。

◆ 給你的訓練做適當的變化:準備多樣、有代表性的資料

我們通常會認為不斷重複做同一件事會讓我們最終成為專家。即使我們從中取得進步,但還有更快捷的方法。不只是練習本身,而是練習的方式。

最關鍵的就是使學習有變化。

最好的吉他手不只是演奏一個類型——這也是為什麼搖滾明星不可能通過只玩搖滾而成為最卓越的演奏家。要達到他們的高度,需要不斷嘗試並練習不同的音樂類型。所有這些不同的類型的特質,會幫助吉他手成為全能大師。

如果不知道布魯士…就沒有辦法用吉他玩搖滾或是其他大眾音樂。

——Keith Richards

要想在某一領域有所建樹,你不可以只是重複做同一件事。你必須要使得你做的事情有所變化,這樣才能有更普適的能力。

用代表不同情形的資料來訓練一個機器學習模型是至關重要的一點。

如果你想教那個外星人朋友椅子長什麼樣,就需要保證提供給他不同類型、不同視角的照片。

下一次當你想學習一項新的技能,嘗試盡可能的從不同的視角進行學習。

◆ 不要重新發明輪胎:學會遷移學習

在矽谷你會見到很多換了新的工作領域的人都做得非常好。有建築師轉去做設計師,律師去做銷售代表,工程師去做市場行銷人員等等。有趣的是,他們都會發現有很多原來工作中的知識可以應用到新的工作。

在人工神經網路(主要用於圖像識別)領域有一個叫轉移學習的技巧。無須把全部的東西重建,你可以用以前訓練過的相似的任務中的一部分放入新的任務。不難想像,這會説明提高模型的表現並能節省很多時間。

回想吉他演奏家的例子——如果你已經知道如何彈鋼琴,可能對你來說學吉他就會容易很多。雖然是完全不同的樂器,但基礎的音樂素養是普適的。

最重要的是學會利用大腦中已經建立的聯繫,將其應用於不同的技能當中。

就像滑板的技能可以應用於滑雪板一樣。

通過應用已知的知識,你可以快速的上手新的東西。

機器學習不是什麼新東西,已經有幾十年了。這是一個緩慢的過程,而且現在逐漸開始可以看到回報了。現在我們有資源來創造一個巨大的影響。上一周我參加Gigaom AI 2017 會議,Jerry Kaplan形容說,從歷史上看,我們現在的這是時代可以和猶如之前輪子的發明發明輪子的革命般相提並論。

既然你有一個大概的概念這些神秘的黑箱是如何運作的,我鼓勵你去探索一下AI。我們不僅僅需要工程師和資料科學家,我們還需要懂得這幕後是如何運作的、並將這科技的力量應用於新的領域的人們。

AI是下一個猶如電的的發明般的存在,並會一直不斷的對一個又一個的行業進行轉變。

——Andrew Ng

雲實驗環境隨時練習

14次直播教學 + 17次小班手把手實戰輔導

9周課程+ 視頻可回看一年

簡歷和麵試輔導

大型互聯網公司資深講師x3 + 名校班主任x3 + 國內外助教x10

第1期課程收到五星好評

3月18日開課,報名馬上截止——

根據天氣挺起情況預測他是否會打網球。

經過幾周對他的觀察他和並收集了相關資料,你總結了如下表格:

既然你有了好的、有代表性的資料,你便可以開始建模。

有很多種不同的方法,我將用一種叫做決策樹的技巧來簡單講解歸類問題。

你覺得在上圖表格中哪個那個變數會影響你鄰居要不要打網球的決策?可能是天氣情況。

要弄清如何構建決策樹,我們的模型會找出哪那些變數可以將資料最好的分割開來。把天氣情況放在決策樹的根部,然後我們就可以開始用同樣的方法來建立更多的枝杈,直到決策樹看起來如下圖:

訓練完模型之後,我們就會得到一個可以幫助我們預測鄰居是否在家的決策樹。

你可能會想:“這到底會怎麼幫助我學習一個新的技能?”

如果你想要訓練一個好的理論可以用來使你的學習收益最大化,有一些主要的規則需要遵守。

如果你想瞭解更多關於機器學習的知識,這裡有一些很棒的資源。

◆ 練習,練習,再練習——收集大量的資料

不是當你已經優秀了才去練習,而是不斷地練習幫助你變得優秀。

——Malcolm Gladwell

這一條比較簡單——練習的越多,你就會變得越好。

我們都聽過“大資料”這個時下很火的詞。可是只有很少的人真的瞭解他真正的含義。根據牛津詞典的解釋,大資料是:極其大的資料集,需要用電腦來分析並展現出它的特徵、趨勢和聯繫,尤其是與人類行為相關的部分。

大資料是用很多很多的例子來訓練一個模型。

根據牛津關於技能學習的神經機制的研究,當我們開始學習一些新東西,這個過程中包含了很多神經活動。但當我們反復練習同一個任務的時候,每一次完成他所需要的腦力就會逐漸減少。

當你建一個機器學習的模型時,這會很大程度上決定你演算法表現的好壞。你需要很多很多的案例才能得到一個好的模型。相較於給外星人看幾張照片,給他看更多的案例會讓他學習的更好。

但是不變的是,基於大量的資料建立簡單的模型勝過只有少量資料的複雜模型。

——Alon Halevy, Peter Norvig, and Fernando Pereira, Google. The unreasonable effectiveness of data.

我們花了很多時間來學習相關的課題,比如閱讀,看視頻,向人們請教等,但在真正上手練習之前還是會猶豫很久。

唯一能讓你有所提高的辦法就是去實踐。

◆ 不要死記硬背:避免過度擬合

回顧在學生時代的時候,你是否又有因為死記硬背某個數學題目的解法,卻因為考試中的題目與記下來的題目稍有不同而解不出來?這其實是同樣的概念,那一點點的不同就可以讓你的方法一文不值。

如果你死記硬背一個流程同樣會如此,我們會失去將問題普適化、解決沒有見過的情形的能力。

在機器學習過程中,這個叫過度擬合。當你訓練你的模型通過記憶來學習,就會發生這樣的事情。這其實很危險,因為如我們如果用同樣的資料集來測驗,可能會有100%的擬合度,但當遇到沒有見過的問題的時候會表現的很差很差。

當我們知道有辦法可以點擊一下滑鼠就解決問題,就沒有必要死記硬背了。

這就是為什麼很多人學不會程式設計。他們會因為有太多的東西去要記憶而失去信心。可是,這正是問題本身——我知道的所有擅長程式設計的人都很會使用“穀歌”。

根據Eric Mazui (哈佛大學物理學教授,同時也是Peer Instruction的作者)的研究,一個互動式的學習會讓學生對問題的理解力比死記硬背的學習高三倍。

這個道理很簡單,強迫你自己在沒有指導的情況下學習。當你自己弄明白了一些道理之後,你就可以回顧整個過程,這樣可以避免沒有理解就死記硬背。

◆ 給你的訓練做適當的變化:準備多樣、有代表性的資料

我們通常會認為不斷重複做同一件事會讓我們最終成為專家。即使我們從中取得進步,但還有更快捷的方法。不只是練習本身,而是練習的方式。

最關鍵的就是使學習有變化。

最好的吉他手不只是演奏一個類型——這也是為什麼搖滾明星不可能通過只玩搖滾而成為最卓越的演奏家。要達到他們的高度,需要不斷嘗試並練習不同的音樂類型。所有這些不同的類型的特質,會幫助吉他手成為全能大師。

如果不知道布魯士…就沒有辦法用吉他玩搖滾或是其他大眾音樂。

——Keith Richards

要想在某一領域有所建樹,你不可以只是重複做同一件事。你必須要使得你做的事情有所變化,這樣才能有更普適的能力。

用代表不同情形的資料來訓練一個機器學習模型是至關重要的一點。

如果你想教那個外星人朋友椅子長什麼樣,就需要保證提供給他不同類型、不同視角的照片。

下一次當你想學習一項新的技能,嘗試盡可能的從不同的視角進行學習。

◆ 不要重新發明輪胎:學會遷移學習

在矽谷你會見到很多換了新的工作領域的人都做得非常好。有建築師轉去做設計師,律師去做銷售代表,工程師去做市場行銷人員等等。有趣的是,他們都會發現有很多原來工作中的知識可以應用到新的工作。

在人工神經網路(主要用於圖像識別)領域有一個叫轉移學習的技巧。無須把全部的東西重建,你可以用以前訓練過的相似的任務中的一部分放入新的任務。不難想像,這會説明提高模型的表現並能節省很多時間。

回想吉他演奏家的例子——如果你已經知道如何彈鋼琴,可能對你來說學吉他就會容易很多。雖然是完全不同的樂器,但基礎的音樂素養是普適的。

最重要的是學會利用大腦中已經建立的聯繫,將其應用於不同的技能當中。

就像滑板的技能可以應用於滑雪板一樣。

通過應用已知的知識,你可以快速的上手新的東西。

機器學習不是什麼新東西,已經有幾十年了。這是一個緩慢的過程,而且現在逐漸開始可以看到回報了。現在我們有資源來創造一個巨大的影響。上一周我參加Gigaom AI 2017 會議,Jerry Kaplan形容說,從歷史上看,我們現在的這是時代可以和猶如之前輪子的發明發明輪子的革命般相提並論。

既然你有一個大概的概念這些神秘的黑箱是如何運作的,我鼓勵你去探索一下AI。我們不僅僅需要工程師和資料科學家,我們還需要懂得這幕後是如何運作的、並將這科技的力量應用於新的領域的人們。

AI是下一個猶如電的的發明般的存在,並會一直不斷的對一個又一個的行業進行轉變。

——Andrew Ng

雲實驗環境隨時練習

14次直播教學 + 17次小班手把手實戰輔導

9周課程+ 視頻可回看一年

簡歷和麵試輔導

大型互聯網公司資深講師x3 + 名校班主任x3 + 國內外助教x10

第1期課程收到五星好評

3月18日開課,報名馬上截止——