MIT和FB搞了個視頻資料集，讓Youtube視頻審查更容易

雷鋒網按：這裡是，雷鋒字幕組編譯的Two minutes paper專欄，每週帶大家用碎片時間閱覽前沿技術，瞭解AI領域的最新研究成果。

原標題 SLAC Dataset From MIT and Facebook

翻譯 | 祁曉君字幕 | 凡江整理 | 廖穎

論文標題：SLAC: A Sparsely Labeled Dataset for Action Classification and Localization

▷每週一篇2分鐘論文視頻解讀

本期論文即將介紹的這個項目，用到了麻省理工學院和 Facebook 聯合創建的資料集，該資料集名為SLAC（Sparsely Labeled ACtions），用於動作識別和定位。它包含520K以上的未修剪視頻和1.75M剪輯注釋，涵蓋200個動作類別。該論文提出的框架使得注釋視訊短片花費的時間更少，僅為8.8秒，與傳統的手動修剪和動作定位程式相比，標記時間節省超過95％。

一般來講，資料集的目的是用來訓練和測試學習演算法的品質。本期視頻提到的這類資料集包含了很多剪輯的短視頻，這些短視頻片段被傳遞給一個神經網路，由神經網路來對視頻中發生的活動進行分類。在這個資料集中，神經網路在很多場景都會給出一個錯誤的邏輯答案。很簡單，人類知道——我們可能會在一個裝有攀岩牆的房間裡，但我們不一定會鍛煉；我們可能在游泳池附近，但我們不一定游泳。讓神經網路知道有一個游泳池邊可能發生游泳這個事情是非常容易的，但真正瞭解游泳是什麼，

卻需要它對大量的資料進行理解。

創建這樣的資料集是一項非常艱巨的工作，因為它包含超過50萬個視頻，為200個不同的活動提供近200萬個注釋，並且還有很多預處理步驟需要執行才能使其可用。

所有這些視頻都經過鏡頭和人物檢測步驟，提取了包含某種人類活動的相關子片段。然後用兩個不同的分類器查看，查看結果是根據兩者之間是否存在共性，來決定這段視訊短片是否被丟棄。這一步驟使得負面樣本變得更難，因為上下文可能是正確的，但預期的活動可能並不是那樣。一個典型的游泳池例子，就是穿著泳裝的人，只是在擺弄手指，而不是在游泳。

更有趣的部分是——當我們試圖訓練神經網路來處理其他鬆散相關的任務時，使用這個資料集進行預訓練可顯著提高分數。圖中給出了一些數位，這些數位是非常不可思議的——有些案例的成功率提高了30％以上，這本身就說明了問題。但是在其他情況下，差異約為10-15％，這種差異在成功率很高時也很明顯。因為分類器越接近100％，

下面剩下的案例就越難提高準確性。在這些情況下，即使是3％的改善也是顯著的。

論文原文：https://arxiv.org/pdf/1712.09374.pdf