穀歌發佈新資料集，教機器辨識人類動作

【智慧觀】日新月異的AI又給我們帶來了AVA，教機器理解視頻中的人類動作是電腦視覺的一個基本研究課題，但識別人類動作仍然是一個巨大的挑戰。儘管有許多基準資料集（如 UCF101、ActivityNet 和 DeepMind 的 Kinetics）採用圖像分類標記模式，並為資料集中的每個視頻或視訊短片分配一個標籤，但對於有多人執行不同動作的複雜場景，還沒有相應的資料集。這次穀歌發佈的AVA誕生於“原子視覺動作”，是一個全新的資料集，為擴展視頻序列中的每個人提供多個動作標籤。 AVA 由 YouTube 中公開視頻的網址組成，注解了一組 80 種時空局部化的原子動作（如“走”、“踢（物體）”、“握手”等），

產生了 5.76 萬個視頻片段、9.6 萬個標記動作執行人以及總共 21 萬個動作標籤。

現在人工智慧又多了一項新資源來理解人類。

近日，擁有YouTube的穀歌公開了一個新的電影剪輯資料集，旨在教機器辨識人類的動作。這份資料集被稱為AVA，或者“原子視覺動作”。

資料集裡的視頻對於人類來說並不是什麼特別的東西，只不過是YouTube上人們喝水或烹飪的三秒鐘剪輯。但每個剪輯都綁定了一個檔，檔採用機器學習演算法標記了視頻畫面上的人或物，他們的姿勢描述，以及他們是否在與另一個人或物體交流。當演算法標記出視頻中的狗，就會訓練AI認識狗。

當視頻中不止一個人在做事時，每個人都會有自己的標籤。通過這種方式，演算法就可以學習一些必要的動作，如兩個人握手之類。

谷歌資料集中的標籤

這項技術可以幫助穀歌每天分析YouTube上的視頻，也可以通過分析你看的視頻內容，投放更精准的目標廣告，或用於視頻內容審核分級。穀歌最後的目的是幫電腦實現社會視覺智慧，

其研究人員在一份相關的研究論文中寫道，這意味著機器可以“理解人類正在做什麼，他們下一步可能做什麼，以及他們正在努力達到什麼目標等”。

AVA 的原子動作標籤分佈， x 軸所示標籤只是詞彙表的一部分

AVA 中頻繁共同出現的動作對

AVA資料集有57,600個標籤視頻，詳細描述了80個動作。像站立、說話、聽和走路這樣的簡單動作在資料集中出現得最多，每一個都攜帶超過10000個標籤。該團隊在一份研究報告中稱，使用電影片段確實會給他們的機器學習帶來一些偏見，因為電影製作有“自己的行規”，

有些動作也會被戲劇化。

“我們並不認為這些資料是完美的， ”研究人員在相關論文中寫道， “但這比使用各種使用者生成的內容，如動物表演視頻、DIY教學視頻、兒童生日派對之類的活動等要好得多。 ”

在這篇論文中，研究者試圖盡可能多地找到不同國家的代表人物來獲取資料，但他們沒有詳細說明資料集可能會因種族或性別而產生偏差。

附資料集地址：

https://research.google.com/ava/explore.html

—完—

作者：Dave Gershgorn

智慧觀編譯

想知道AI加教育領域有哪些最新研究成果？

想要AI領域更多的乾貨？

想瞭解更多專家的“智慧觀”？

請在對話介面點擊“找找看”，去獲取你想要的內容吧。