新智元介紹
2017年台大李宏毅中文深度學習課程來了。 課程名稱是“機器學習及其深層與結構化(NTUEE Machine Learning and having it Deep and Structured)”。 我們先來看一下李老師對於課程名稱的解釋。
可以看出, 其中的“深度”描述了機器學習的方法, 也就是說本門課程主要內容是關於深度學習的, 而“結構化”則是深度學習的任務。
課程目錄
課程介紹
作業0
TensorFlow 介紹
例1- Word2vector模型
例2-卷積神經網路(CNN)
深度學習模型的基礎架構
用於反向傳播的計算圖
深度學習語言模型
作業1-語言模型
特殊的深度學習架構
RNN條件生成
作業2
自然語言對話的深度學習
深度學習和晶片
評分
視頻位址:
https://www.youtube.com/playlist?list=PLJV_el3uVTsPMxPbjeX7PicgWbY7F8wW9
李宏毅老師簡介
李宏毅老師于2012年從臺北 National Taiwan University (NTU) 博士畢業。 2012年9月—2013年8月, 在 Sinica Academia 的 Research Center for Information Technology Innovation 做博士後。 2013年9月—2014年7月, 在 MIT Computer Science and ArtificialIntelligence Laboratory (CSAIL) 的 Spoken Language Systems Group 做訪問學者。 現任 Department of Electrical Engineering of National TaiwanUniversity 副教授。
第一章 課程介紹
結構化的(輸出)學習;
機器學習就是去尋找一個函數 f
回歸
分類
機構化學習
輸出序列:以語音到文本的轉換為例
輸出矩陣:以圖像到圖像、文字到圖像的轉換為例
結構化輸出的挑戰:
輸出空間是非常稀疏的
因為輸出元件有依存性, 應該對他們進行全域考慮
第二章 TensorFlow介紹
流程結構
總原則
導入模組
Session1
Session2
變數和範圍1
變數和範圍2
變數和範圍3
變數和範圍4
變數和範圍5
預留位置 1
預留位置 2
定義添加層
例1- Word2vector模型
例2-卷積神經網路(CNN)
第三章 深度學習模型的基礎架構
深度學習三步走:神經網路--成本函數--優化
完整的連接層
不同層輸出之間的的關係
遞迴神經網路
深度RNN
三角RNN
Naive RNN
LSTM
堆疊RNN
第四章 用於反向傳播的計算圖
反向傳播:一種計算梯度的高效方法
通過計算圖(computational graph)理解反向傳播:Tensorflow, Theano, CNTK, etc.
計算圖:一種描述函數的“語言”
節點:變數(標量、向量、張量……)
邊線:操作(簡單函數)
參數共用:相同的參數出現在不同的節點
前饋網路計算圖
前饋網路的損失函數
損失函數的梯度
計算梯度需要:計算偏導數,使用反向模式→輸出總是一個標量(scalar)
遞迴網路計算圖
參考資料
第五章 語言建模
語言模型:預估單詞序列的概率
應用:語音辨識(不同的單詞序列可能發音相同);句子生成
N-gram
怎樣預估P(w₁, w₂ , w₃, …., wn)
收集大量文本資料作為訓練資料(但單詞序列 w₁,w₂,…,wn可能沒有出現在訓練資料中)
N-gram 語言模型: P(w₁, w₂ , w₃, …., wn ) = P(w₁ |START)P(w₂ |w₁ ) …... P(wn |wn-₁ ) ← 這是 2-gram
3-gram, 4-gram …… 也很容易生成
NN -based LM
RNN-based LM:為長期資訊建模
也可以用深度 RNN 或 LSTM
N-gram 的挑戰:估計的概率不一定準確(尤其當 n-gram 中 n 的數值非常大時)
原因是資料稀疏性:大的模型,不充分的資料
這叫做“語言模型平滑”(language model smoothing)
語言模型的神經圖靈機
更多參考資料
第六章 特殊深度學習結構
Spatial Transformer Layer
圖像轉換
遞迴結構
應用:情感分析
迴圈結構:是遞迴結構的特殊形式
遞迴結構:如何堆疊函數 f 是已經確定的
遞迴模型
遞迴神經張量網路
實驗:5-class 情感分類 ( -- , - , 0 , + , ++ )
矩陣-向量遞迴網路
Tree LSTM
第七章 RNN 條件生成
生成
句子由字元/單詞組成
利用 RNN,每次生成一個字元/單詞
圖像由圖元組成
利用 RNN,每次生成一個圖元
條件生成
我們不希望只是簡單生成一些隨機的句子,希望根據當前條件生成句子。
應用:生成圖說;聊天機器人
注意力:動態條件生成
機器翻譯:基於注意力的模型
語音辨識
圖像說明生成
課程位址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS17.html
3月27日,新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開,包括“BAT”在內的中國主流 AI 公司、600多名行業精英齊聚,共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。
點擊閱讀原文,查閱文字版大會實錄
訪問以下連結,回顧大會盛況:
阿裡雲棲社區:http://yq.aliyun.com/webinar/play/199
愛奇藝:http://www.iqiyi.com/l_19rrfgal1z.html
騰訊科技:http://v.qq.com/live/p/topic/26417/preview.html
流程結構
總原則
導入模組
Session1
Session2
變數和範圍1
變數和範圍2
變數和範圍3
變數和範圍4
變數和範圍5
預留位置 1
預留位置 2
定義添加層
例1- Word2vector模型
例2-卷積神經網路(CNN)
第三章 深度學習模型的基礎架構
深度學習三步走:神經網路--成本函數--優化
完整的連接層
不同層輸出之間的的關係
遞迴神經網路
深度RNN
三角RNN
Naive RNN
LSTM
堆疊RNN
第四章 用於反向傳播的計算圖
反向傳播:一種計算梯度的高效方法
通過計算圖(computational graph)理解反向傳播:Tensorflow, Theano, CNTK, etc.
計算圖:一種描述函數的“語言”
節點:變數(標量、向量、張量……)
邊線:操作(簡單函數)
參數共用:相同的參數出現在不同的節點
前饋網路計算圖
前饋網路的損失函數
損失函數的梯度
計算梯度需要:計算偏導數,使用反向模式→輸出總是一個標量(scalar)
遞迴網路計算圖
參考資料
第五章 語言建模
語言模型:預估單詞序列的概率
應用:語音辨識(不同的單詞序列可能發音相同);句子生成
N-gram
怎樣預估P(w₁, w₂ , w₃, …., wn)
收集大量文本資料作為訓練資料(但單詞序列 w₁,w₂,…,wn可能沒有出現在訓練資料中)
N-gram 語言模型: P(w₁, w₂ , w₃, …., wn ) = P(w₁ |START)P(w₂ |w₁ ) …... P(wn |wn-₁ ) ← 這是 2-gram
3-gram, 4-gram …… 也很容易生成
NN -based LM
RNN-based LM:為長期資訊建模
也可以用深度 RNN 或 LSTM
N-gram 的挑戰:估計的概率不一定準確(尤其當 n-gram 中 n 的數值非常大時)
原因是資料稀疏性:大的模型,不充分的資料
這叫做“語言模型平滑”(language model smoothing)
語言模型的神經圖靈機
更多參考資料
第六章 特殊深度學習結構
Spatial Transformer Layer
圖像轉換
遞迴結構
應用:情感分析
迴圈結構:是遞迴結構的特殊形式
遞迴結構:如何堆疊函數 f 是已經確定的
遞迴模型
遞迴神經張量網路
實驗:5-class 情感分類 ( -- , - , 0 , + , ++ )
矩陣-向量遞迴網路
Tree LSTM
第七章 RNN 條件生成
生成
句子由字元/單詞組成
利用 RNN,每次生成一個字元/單詞
圖像由圖元組成
利用 RNN,每次生成一個圖元
條件生成
我們不希望只是簡單生成一些隨機的句子,希望根據當前條件生成句子。
應用:生成圖說;聊天機器人
注意力:動態條件生成
機器翻譯:基於注意力的模型
語音辨識
圖像說明生成
課程位址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS17.html
3月27日,新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開,包括“BAT”在內的中國主流 AI 公司、600多名行業精英齊聚,共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。
點擊閱讀原文,查閱文字版大會實錄
訪問以下連結,回顧大會盛況:
阿裡雲棲社區:http://yq.aliyun.com/webinar/play/199
愛奇藝:http://www.iqiyi.com/l_19rrfgal1z.html
騰訊科技:http://v.qq.com/live/p/topic/26417/preview.html