【智慧觀】日新月異的AI又給我們帶來了AVA, 教機器理解視頻中的人類動作是電腦視覺的一個基本研究課題, 但識別人類動作仍然是一個巨大的挑戰。 儘管有許多基準資料集(如 UCF101、ActivityNet 和 DeepMind 的 Kinetics)採用圖像分類標記模式, 並為資料集中的每個視頻或視訊短片分配一個標籤, 但對於有多人執行不同動作的複雜場景, 還沒有相應的資料集。 這次穀歌發佈的AVA誕生於“原子視覺動作”, 是一個全新的資料集, 為擴展視頻序列中的每個人提供多個動作標籤。 AVA 由 YouTube 中公開視頻的網址組成, 注解了一組 80 種時空局部化的原子動作(如“走”、“踢(物體)”、“握手”等),
現在人工智慧又多了一項新資源來理解人類。
近日, 擁有YouTube的穀歌公開了一個新的電影剪輯資料集, 旨在教機器辨識人類的動作。 這份資料集被稱為AVA, 或者“原子視覺動作”。
資料集裡的視頻對於人類來說並不是什麼特別的東西, 只不過是YouTube上人們喝水或烹飪的三秒鐘剪輯。 但每個剪輯都綁定了一個檔, 檔採用機器學習演算法標記了視頻畫面上的人或物, 他們的姿勢描述, 以及他們是否在與另一個人或物體交流。 當演算法標記出視頻中的狗, 就會訓練AI認識狗。
當視頻中不止一個人在做事時, 每個人都會有自己的標籤。 通過這種方式, 演算法就可以學習一些必要的動作, 如兩個人握手之類。
谷歌資料集中的標籤
這項技術可以幫助穀歌每天分析YouTube上的視頻, 也可以通過分析你看的視頻內容, 投放更精准的目標廣告, 或用於視頻內容審核分級。 穀歌最後的目的是幫電腦實現社會視覺智慧,
AVA 的原子動作標籤分佈, x 軸所示標籤只是詞彙表的一部分
AVA 中頻繁共同出現的動作對
AVA資料集有57,600個標籤視頻, 詳細描述了80個動作。 像站立、說話、聽和走路這樣的簡單動作在資料集中出現得最多, 每一個都攜帶超過10000個標籤。 該團隊在一份研究報告中稱, 使用電影片段確實會給他們的機器學習帶來一些偏見, 因為電影製作有“自己的行規”,
“我們並不認為這些資料是完美的, ”研究人員在相關論文中寫道, “但這比使用各種使用者生成的內容, 如動物表演視頻、DIY教學視頻、兒童生日派對之類的活動等要好得多。 ”
在這篇論文中, 研究者試圖盡可能多地找到不同國家的代表人物來獲取資料, 但他們沒有詳細說明資料集可能會因種族或性別而產生偏差。
附資料集地址:
https://research.google.com/ava/explore.html
—完—
作者:Dave Gershgorn
智慧觀 編譯
想知道AI加教育領域有哪些最新研究成果?
想要AI領域更多的乾貨?
想瞭解更多專家的“智慧觀”?
請在對話介面點擊“找找看”, 去獲取你想要的內容吧。