AAAI 2018，騰訊AI Lab 11篇錄用論文全解讀

雷鋒網 AI 科技評論按：2 月 2 日至 2 月 7 日， AAAI 2018 將在美國新奧爾良舉行，雷鋒網AI 科技評論也將到現場進行一線報導。

在本次大會上，騰訊 AI Lab 有 11 篇論文被錄用，論文錄用名單及摘要解讀如下：

1 學習用於圖像描述的引導解碼（Learning to Guide Decoding for Image Captioning）

圖像描述領域近來取得了很多進展，而且已經有一種編碼器-解碼器框架在這一任務上得到了出色的表現。在本論文中，我們提出了一種編碼器-解碼器框架的擴展——增加了一個名叫引導網路（guiding network）的元件。這種引導網路會建模輸入圖像的屬性特性，其輸出會被用於組成解碼器在每個時間步驟的輸入。

這種引導網路可以插入到當前的編碼器-解碼器框架中，並且可以以一種端到端的方式訓練。因此，該引導向量可以根據來自解碼器的信號而自我調整地學習得到，使其自身中嵌入來自圖像和語言兩方面的資訊。此外，還能使用判別式監督來進一步提升引導的品質。我們通過在 MS COCO 資料集上的實驗驗證了我們提出的方法的優勢。

2 發現和區分多義詞的多個視覺含義（Discovering and Distinguishing Multiple Visual Senses for Polysemous Words）

bmc.uestc.edu.cn/~fshen/AAAI18.pdf

為了減少對有標籤資料的依賴，利用網路圖像學習視覺分類器的研究工作一直在不斷增多。限制他們的表現的一個問題是多義詞問題。為了解決這個問題，我們在本論文中提出了一種全新的框架——該框架可通過允許搜索結果中特定於含義的多樣性來解決該問題。

具體而言，我們先發現一個用於檢索特定於含義的圖像的可能語義含義清單。然後，我們使用檢索到的圖像來合併視覺上相似的含義並剪枝掉雜訊。最後，我們為每個被選中的語義含義訓練一個視覺分類器並使用學習到的特定於含義的分類器來區分多個視覺含義。我們在按含義給圖像分類和重新排序搜索結果上進行了大量實驗，結果表明了我們提出的方法的優越性。

3 使用穩定化Barzilai-Borwein 步長的隨機非凸序數嵌入（Stochastic Non-convex Ordinal Embedding with Stabilized Barzilai-Borwein Step Size）

https://arxiv.org/abs/1711.06446

根據相對相似度比較來學習表徵的方法通常被稱為序數嵌入（ordinal embedding），該方法在近些年得到了越來越多的關注。大多數已有的方法都是主要基於凸優化而設計的批次處理方法，

比如投影梯度下降法（projected gradient descent method）。但是，由於更新過程中通常採用了奇異值分解（SVD），所以這些方法往往非常耗時，尤其是當資料量非常大時。為了克服這一難題，我們提出了一種名叫 SVRG-SBB 的隨機演算法，該演算法有以下特性：

（a）通過丟棄凸性而不再需要 SVD，而且通過使用隨機演算法（即方差縮減隨機梯度演算法（SVRG））而實現了優良的擴展性能；

（b）引入一種新的具有自我調整的步長選擇的穩定化 Barzilai-Borwein（SBB）方法，由於凸問題的原始版本可能無法用於所考慮的隨機非凸優化問題。

此外，研究表明我們提出的演算法能在我們的設置中以的速度收斂到一個穩定解，其中 T是總反覆運算次數。我們還進行了許多類比和真實資料實驗，並通過與當前最佳方法的比較而證明了我們提出的演算法的有效性；尤其值得一提的是我們的演算法使用遠遠更低的計算成本也能實現優良的預測表現。

4 降秩線性動態系統（Reduced-Rank Linear Dynamical Systems）

線性動態系統（LDS）在研究多變數時間序列的基本模式方面有廣泛的應用。這些模型的一個基本假設是高維時間序列可以使用一些基本的、低維的和隨時間變化的隱含狀態來表徵。但是，已有的 LDS 建模方法基本上是學習一個規定了維數的隱含空間。當處理長度較短的高維時間序列資料時，這樣的模型會很容易過擬合。我們提出了降秩線性動態系統（RRLDS），可以在模型學習過程中自動檢索隱含空間的固有維數。

我們觀察到的關鍵是 LDS 的動態矩陣的秩中包含了固有的維數資訊，

而使用降秩正則化的變分推理最終會得到一個簡明的、結構化的且可解釋的隱含空間。為了讓我們的方法能處理有計數值的資料，我們引入了離散性自我調整分佈（dispersion-adaptive distribution）來適應這些資料本身具備的過離散性/等離散性/欠離散性。在類比資料和實驗資料上的結果表明我們的模型可以穩健地從長度較短的、有雜訊的、有計數值的資料中學習隱含空間，並且還顯著超越了當前最佳的方法的預測表現。

5 使用重構模型翻譯代詞脫落語言（Translating Pro-Drop Languages with Reconstruction Models）

在漢語等代詞脫落語言（pro-drop language）中，代詞常會被省略，這通常對翻譯結果的完整性造成極大的不良影響。到目前為止，很少有研究關注神經網路機器翻譯（NMT）中的代詞脫落（DP）問題*。在這項研究中，我們提出了一種全新的基於重構的方法，用於緩解NMT 模型中代詞脫落所引起的翻譯問題。首先，利用雙語語料庫中提取的對齊資訊，將所有源句子中脫落的代詞進行自動標注。然後，再使NMT模型中的隱藏層的表示重構回被標注的源句子。使用重構分數來輔助訓練目標，用於鼓勵隱藏層表徵盡可能地嵌入標注的DP資訊，從而引導與該NMT模型相關的參數來產生增強的隱藏層表徵。我們在漢語-英語和日語-英語對話翻譯任務上進行實驗，結果表明本方法顯著地、持續地超過了強大的NMT基準系統，該基準系統直接建立在標注了DP的訓練資料上。

6 改進序列到序列的成分句法分析（Improving Sequence-to-Sequence Constituency Parsing）

序列到序列的成分句法分析，通過自上而下的樹線性化（tree linearization），將結構預測轉化成一般的序列到序列的問題來處理，因此它可以很容易地利用分散式設備進行並行訓練。這種模型依賴於一種概率注意機制，儘管這種機制在一般的序列到序列問題取得了成功，但在句法分析特定場景中它無法保證選擇充分的上下文資訊。之前的研究工作引入了一種確定性注意（deterministic attention）機制來為序列到序列的句法分析選擇有信息量的上下文，但這種方法只能適用於自下而上的線性化，而且研究者也已經觀察到：對標準的序列到序列的成分句法分析而言，自上而下的線性化優於自下而上的線性化。在這篇論文中，我們對該確定性注意力機制進行了拓展，使其可以適用於自上而下的樹線性化。我們進行了大量實驗，結果表明我們的句法分析器相比於自下而上的線性化取得了顯著的準確度提升；在不使用重排序（reranking）或半監督訓練的情況下，我們的方法在標準的英文PTB 和中文CTB資料集上分別達到了92.3 和 85.4 Fscore。

7 用於眾包配對排名聚合的使用資訊最大化的 HodgeRank（HodgeRank with Information Maximization for Crowdsourced Pairwise Ranking Aggregation）

https://arxiv.org/abs/1711.05957

眾包近來已經成為了許多領域解決需要人力的大規模問題的有效範式。但是，任務發佈者通常預算有限，因此有必要使用一種明智的預算分配策略以獲得更好的品質。在這篇論文中，我們在 HodgeRank 框架中研究了用於主動採樣策略的資訊最大化原理；其中 HodgeRank 這種方法基於多個眾包工人（worker）的配對排名資料的霍奇分解（Hodge Decomposition）。該原理給出了兩種主動採樣情況：費希爾資訊最大化（Fisher information maximization）和貝葉斯資訊最大化（Bayesian information maximization）。其中費希爾資訊最大化可以在無需考慮標籤的情況下基於圖的代數連線性（graph algebraic connectivity）的序列最大化而實現無監督式採樣；貝葉斯資訊最大化則可以選擇從先驗到後驗的過程有最大資訊增益的樣本，這能實現利用所收集標籤的監督式採樣。實驗表明，相比于傳統的採樣方案，我們提出的方法能提高採樣效率，因此對實際的眾包實驗而言是有價值的。

8 自我調整圖卷積神經網路（Adaptive Graph Convolutional Neural Networks）

圖卷積神經網路（Graph CNN）是經典 CNN 的方法，可用于處理分子資料、點雲和社交網路等圖資料。Graph CNN 領域當前的篩檢程式是為固定的和共用的圖結構構建的。但是，對於大多數真實資料而言，圖結構的規模和連線性都會改變。本論文提出了一種有泛化能力的且靈活的Graph CNN，其可以使用任意圖結構的資料作為輸入。通過這種方式，可以在訓練時為每個圖資料都學習到一個任務驅動的自我調整圖。為了有效地學習這種圖，我們提出了一種距離度量學習。我們在九個圖結構資料集上進行了大量實驗，結果表明我們的方法在收斂速度和預測準確度方面都有更優的表現。

9 多維長時資料的隱含稀疏模型（Latent Sparse Modeling of Longitudinal Multi-dimensional Data）

http://www.engr.uconn.edu/~jinbo/doc/AAAI_18_v5.pdf

我們提出了一種基於張量的模型，可用於對由多樣本描述單個物件的多維資料進行分析。該模型能同時發現特徵中的模式以及揭示會影響到當前結果的過去時間點上的資料。其模型係數，一個 k-模的張量，可分解為 k 個維數相同的張量的總和。為了完成特徵選擇，我們引入了張量的“隱含F-1模”作為我們的公式中的分組懲罰項。此外，通過開發一個基於張量的二次推斷函數（quadratic inference function, QIF），我們提出的模型還能考慮到每個物件的所有相關樣本的內部關聯性。我們提供了當樣本量趨近于無窮大時對模型的漸進分析（asymptotic analysis）。為了解決對應的優化問題，我們開發了一種線性化的塊座標下降演算法（linearized block coordinate descent algorithm），並證明了其在樣本量固定時的收斂性。在合成資料集以及真實資料集：功能性磁共振成像（ fMRI）和腦電圖（EEG）上的計算結果表明我們提出的方法比已有的技術有更優的表現。

10 使用使用者-物品聯合自回歸模型的協同過濾（Collaborative Filtering with User-Item Co-Autoregressive Models

https://arxiv.org/abs/1612.07146

深度神經網路已經表現出了在協同過濾（CF）方面的潛力。但是，已有的神經方法要麼是基於用戶的，要麼就是基於項目的，這不能明確地利用所有的隱含資訊。我們提出了 CF-UIcA，這是一種用於 CF 任務的神經聯合自回歸模型，其利用了使用者和物品兩個域中的結構相關性。這種聯合自回歸允許為不同的任務集成其它額外的所需特徵。此外，我們還開發了一個有效的隨機學習演算法來處理大規模資料集。我們在 MovieLens 1M 和 Netflix 這兩個流行的基準上對 CF-UIcA 進行了評估，並且在評級預測和推薦最佳 N 項的任務上都實現了當前最佳的表現，這證明了 CF-UIcA 的有效性。

11 EAD：通過對抗樣本實現對深度神經網路的彈性網路攻擊（EAD: Elastic-Net Attacks to Deep Neural Networks via Adversarial Examples）

https://arxiv.org/abs/1709.04114

近來的一些研究已經突出說明了深度神經網路（DNN）面對對抗樣本時的脆弱性——我們可以輕鬆創造出在視覺上難以區分，卻能讓經過良好訓練的模型分類錯誤的對抗圖像。已有的對抗樣本創造方法是基於 L2 和 L∞ 失真度量的。但是，儘管事實上 L1 失真就能說明整體的變化情況且鼓勵稀疏的擾動，但在創造基於 L1 的對抗樣本上的發展則很少。

在本論文中，我們將使用對抗樣本攻擊 DNN 的過程形式化為了使用彈性網路正則化的優化問題。我們對 DNN 的彈性網路攻擊（EAD）使用了面向 L1 的對抗樣本，並且還包含了當前最佳的 L2 攻擊作為特例。在 MNIST、CIFAR10 和 ImageNet 上的實驗結果表明 EAD 可以得到一組明確的具有很小 L1 失真的對抗樣本，並且能在不同攻擊場景中實現與當前最佳方法近似的攻擊表現。更重要的是，EAD 能改善攻擊可遷移性以及幫補 DNN 的對抗訓練，這為在對抗機器學習中利用 L1 失真以及 DNN 的安全意義提供了全新的見解。

如果，您是……

高校的老師 or 學生，希望錄用論文能得到更多對外展示和交流的機會；

身處企業的研究員，希望能借助學術會議系統地對外介紹企業的研究工作，或是在海外學術會議上與媒體進行深度合作；

以雷鋒網官網為基準，自媒體平臺、AI科技評論微信平臺、慕課學院線上直播平臺、培訓相關課程、社區服務、線下直播支援……您能想得到的一切傳播方式，我們都能盡力為您提供。

如有興趣，歡迎關注AI科技評論（aitechtalk），在公眾號底部的“關於我們”對號入座選擇相應的類目，我們將有專員與您進行深入溝通。

我們提出了一種全新的基於重構的方法，用於緩解NMT 模型中代詞脫落所引起的翻譯問題。首先，利用雙語語料庫中提取的對齊資訊，將所有源句子中脫落的代詞進行自動標注。然後，再使NMT模型中的隱藏層的表示重構回被標注的源句子。使用重構分數來輔助訓練目標，用於鼓勵隱藏層表徵盡可能地嵌入標注的DP資訊，從而引導與該NMT模型相關的參數來產生增強的隱藏層表徵。我們在漢語-英語和日語-英語對話翻譯任務上進行實驗，結果表明本方法顯著地、持續地超過了強大的NMT基準系統，該基準系統直接建立在標注了DP的訓練資料上。