您的位置:首頁>正文

穀歌發佈新資料集,教機器辨識人類動作

【智慧觀】日新月異的AI又給我們帶來了AVA, 教機器理解視頻中的人類動作是電腦視覺的一個基本研究課題, 但識別人類動作仍然是一個巨大的挑戰。 儘管有許多基準資料集(如 UCF101、ActivityNet 和 DeepMind 的 Kinetics)採用圖像分類標記模式, 並為資料集中的每個視頻或視訊短片分配一個標籤, 但對於有多人執行不同動作的複雜場景, 還沒有相應的資料集。 這次穀歌發佈的AVA誕生於“原子視覺動作”, 是一個全新的資料集, 為擴展視頻序列中的每個人提供多個動作標籤。 AVA 由 YouTube 中公開視頻的網址組成, 注解了一組 80 種時空局部化的原子動作(如“走”、“踢(物體)”、“握手”等),

產生了 5.76 萬個視頻片段、9.6 萬個標記動作執行人以及總共 21 萬個動作標籤。

現在人工智慧又多了一項新資源來理解人類。

近日, 擁有YouTube的穀歌公開了一個新的電影剪輯資料集, 旨在教機器辨識人類的動作。 這份資料集被稱為AVA, 或者“原子視覺動作”。

資料集裡的視頻對於人類來說並不是什麼特別的東西, 只不過是YouTube上人們喝水或烹飪的三秒鐘剪輯。 但每個剪輯都綁定了一個檔, 檔採用機器學習演算法標記了視頻畫面上的人或物, 他們的姿勢描述, 以及他們是否在與另一個人或物體交流。 當演算法標記出視頻中的狗, 就會訓練AI認識狗。

當視頻中不止一個人在做事時, 每個人都會有自己的標籤。 通過這種方式, 演算法就可以學習一些必要的動作, 如兩個人握手之類。

谷歌資料集中的標籤

這項技術可以幫助穀歌每天分析YouTube上的視頻, 也可以通過分析你看的視頻內容, 投放更精准的目標廣告, 或用於視頻內容審核分級。 穀歌最後的目的是幫電腦實現社會視覺智慧,

其研究人員在一份相關的研究論文中寫道, 這意味著機器可以“理解人類正在做什麼, 他們下一步可能做什麼, 以及他們正在努力達到什麼目標等”。

AVA 的原子動作標籤分佈, x 軸所示標籤只是詞彙表的一部分

AVA 中頻繁共同出現的動作對

AVA資料集有57,600個標籤視頻, 詳細描述了80個動作。 像站立、說話、聽和走路這樣的簡單動作在資料集中出現得最多, 每一個都攜帶超過10000個標籤。 該團隊在一份研究報告中稱, 使用電影片段確實會給他們的機器學習帶來一些偏見, 因為電影製作有“自己的行規”,

有些動作也會被戲劇化。

“我們並不認為這些資料是完美的, ”研究人員在相關論文中寫道, “但這比使用各種使用者生成的內容, 如動物表演視頻、DIY教學視頻、兒童生日派對之類的活動等要好得多。 ”

在這篇論文中, 研究者試圖盡可能多地找到不同國家的代表人物來獲取資料, 但他們沒有詳細說明資料集可能會因種族或性別而產生偏差。

附資料集地址:

https://research.google.com/ava/explore.html

—完—

作者:Dave Gershgorn

智慧觀 編譯

想知道AI加教育領域有哪些最新研究成果?

想要AI領域更多的乾貨?

想瞭解更多專家的“智慧觀”?

請在對話介面點擊“找找看”, 去獲取你想要的內容吧。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示