華文網

Instagram新推兩款AI過濾工具,沒錯!背後功臣就是Deep Text

雷鋒網6月30日消息 據外媒《連線》雜誌報導,Instagram 本週四發佈了兩款新工具。

一款為自動評論篩檢程式,另一款為垃圾消息篩檢程式。兩款過濾工具的技術基礎都採用了Facebook的人工智慧系統。

該公司表示,這兩項工具可用來減少垃圾消息的數量,同時遮罩內容和視頻中的攻擊性評論。

自動評論篩檢程式自去年9月就一直存在,用戶可以選擇自動啟動該程式。該程式可利用機器學習來識別可能引人反感的評論。如果在評論篩檢程式開啟的情況下仍然出現攻擊性評論,

那麼用戶可以像以往一樣直接向Instagram報告。Instagram表示,評論篩檢程式目前僅支持英語,不過未來將支援其他語言。

另一方面,垃圾消息篩檢程式自去年10月上線以來就一直處於對外界保密的狀態。而上線9月有餘都未被用戶發現,於 Instagram 而言已經說不準是好事還是壞事。目前該功能可以自動清除英語、西班牙語、葡萄牙語、阿拉伯語、法語、德語、俄語、日語和漢語共9種語言的垃圾消息。

雷鋒網瞭解到,Facebook於2012年以10億美元收購了Instagram,並將其內部技術遷移至Facebook的資料中心。

據報導,此次Instagram 發佈的評論篩檢程式就是使用了Facebook 旗下AML實驗室建立的“Deep Text”系統。在Facebook 上,其可以結合機器學習輔助器完成每日 40 億次以上的翻譯功能的處理。此外,該系統還能在一秒之內理解超過二十多種語言的數千封郵件的內容。

如此前雷鋒網報導的 Facebook 在AI+廣告中的應用和探索一文裡,

就詳細的介紹了這一文本系統對 Feeds Ads的支援。

去年6月,Deep Text上線。其一開始被定位為內部工具,用來幫助Facebook 工程師快速排序大量文本,創建分類規則。其後 Instagram 高管深入瞭解該系統之後,立即看到了機會——借其打擊垃圾郵件。因為對於Instagram 的用戶來說,垃圾郵件幾乎是一個極其影響用戶體驗的煩惱。

在決定使用該系統之後,Instagram 第一步就是聘請了一批人員對該平臺進行評論,並將評論按照“垃圾郵件”和“非垃圾郵件”分類。

事實上,這種工作,在社交媒體涉及的技術行業而言非常普遍。先利用人類來訓練機器,讓其執行單調甚至無聊的工作,如此反復,最終機器會慢慢變得聰明和智慧。

Instagram 相關負責人表示,最終通過不斷地資料整合,有3/4的資料被送入 Deep Text。基於此,Instagram 的工程師可創建演算法,並對垃圾郵件可進行正確的分類。

在經歷4個多月的不斷測試和研究後,Instagram 團隊在去年10月悄悄地上線了垃圾郵件過濾的功能。

Instagram 的CEO Kevin Systrom對該功能的效果感到十分滿意。他決定利用 Deep Text 來處理更複雜的問題——消除與Instagram 社區準則相悖的意見或評論。為此,Instagram 還公開發佈了一個 1200字的長文,來解釋其社區的精神。

與垃圾郵件過濾功能的開發過程類似,這次Instagram 又聘請了一大批的人員,每天就重複幹一件事——看評論,並確定該評論是否合適。然後將其分類是否涉及欺騙 or 種族主義 or 性騷擾等等。所有這些工作人員都必須會兩種語言。經過一段集中的處理,這些人一共分析了大約200萬條評論。

同時,Instagram的員工率先在自己的手機上內測了該系統,以此協助公司調整演算法。與垃圾郵件演算法一樣,該系統會基於文本語義來分析發帖的人和評論者(以及其發表的歷史評論)之間的關係。通過一段時間對神經網路的訓練和使用真實資料對模型的測試,Deep Text 已經可以探查到文本之間非常細微的語義差別。

直至今日,Instagram 終於正式宣佈兩大工具的上線。

當然,就目前這兩大工具而言,仍然存在一些演算法缺陷,如當被問及一些特定句子時,系統無法給出具體的回應。經過前文對 Instagram 這兩個工具的開發過程的描述,我們也能看到 Instagram 的AI仍然依賴人類的力量,來訓練機器學習系統。

正如 Facebook歐洲、中東和非洲地區公共政策副總裁 Richard Allen 如是表述,Facebook“還需要很長一段時間,才能依靠機器學習和人工智慧來處理評估仇視言論時的複雜性。”

注:部分資料來源於Wired

所有這些工作人員都必須會兩種語言。經過一段集中的處理,這些人一共分析了大約200萬條評論。

同時,Instagram的員工率先在自己的手機上內測了該系統,以此協助公司調整演算法。與垃圾郵件演算法一樣,該系統會基於文本語義來分析發帖的人和評論者(以及其發表的歷史評論)之間的關係。通過一段時間對神經網路的訓練和使用真實資料對模型的測試,Deep Text 已經可以探查到文本之間非常細微的語義差別。

直至今日,Instagram 終於正式宣佈兩大工具的上線。

當然,就目前這兩大工具而言,仍然存在一些演算法缺陷,如當被問及一些特定句子時,系統無法給出具體的回應。經過前文對 Instagram 這兩個工具的開發過程的描述,我們也能看到 Instagram 的AI仍然依賴人類的力量,來訓練機器學習系統。

正如 Facebook歐洲、中東和非洲地區公共政策副總裁 Richard Allen 如是表述,Facebook“還需要很長一段時間,才能依靠機器學習和人工智慧來處理評估仇視言論時的複雜性。”

注:部分資料來源於Wired