華文網

百度雲智峰會上海站:百度眾包賦能數據,助燃人工智慧

4月12日,百度雲智峰會-2017ABC生態及合作夥伴大會于上海國際會議中心成功舉辦。百度眾包(zhongbao.baidu.com)首席資料解決方案專家李明出席並發表主題為《百度眾包平臺資料服務探索與實踐》的演講,

通過眾包模式説明企業或開發者解決如何獲取海量標注資料的難題。

百度眾包首席資料解決方案專家 李明

人工智慧,演算法是發動機,資料是燃料。對於很多公司,獲取海量而優質的標注資料是實現人工智慧的先決條件。演算法模型是電腦基於大規模的訓練資料集,

歸納出的識別邏輯,以實現精准的物體和場景識別。可以說,實現機器精准識別的重要一步,就是獲取海量而優質的標注資料。

李明在此次峰會的演講中提到:”以人臉識別為例,訓練該演算法模型的圖片資料量至少應為百萬級別。這麼大規模的資料獲取和資料的加工處理,對人工智慧開發者來說,無疑是一個大的挑戰。“

眾包平臺往往是大部分公司解決這一挑戰的選擇。

百度眾包是全國最大的眾包平臺,從2011年成立至今,已累計完成1萬小時語音採集、10億條資料標注、1000億條數據抓取。不僅服務於內部的百度NLP、百度地圖等部門,並且將此成熟的服務對外開放,助力蔚來汽車、圖靈機器人等人工智慧公司飛速發展。百度眾包提供的是一站式海量訓練資料服務,包括資料獲取,資料加工,以及資料的定制化服務。整合線上線下資源獲取到目標資料;通過加工,
實現資料價值最大化;根據需求定制資料解決方案,説明客戶實現技術和應用的突破和創新。

資料獲取

百度眾包資料獲取服務,可以獲取到網頁,文本,圖片,視頻,音訊等資料。資料的獲取來源包括:

ü 線上互聯網的自動化採集,

每天可抓取1億條網路資料;

ü 線下眾包採集,來自300多個城市的10,000名眾包採集員,基於真實場景快速採集目標資料,如語音、地理位置資訊等;

ü 問卷調研採集,百度眾包依託於1,700萬的龐大樣本使用者,支援以問卷調研方式獲取個人行為和行業諮詢資料。

資料加工

通過採集得到的資料大多是原始資料,不能直接被拿來使用,需要進行加工。百度眾包擁有10,000名專業的標注員,以日均200萬條資料的承接能力高效處理海量資料標注需求,提供三種資料加工處理方式:

l 資料清洗,有干擾資料的,需要去噪,涉及隱私的要對資料進行脫敏;

l 對於採集到的圖像,網頁等非結構化資料,要對其進行結構化加工處理;

l 資料關聯處理主要是指數據的標籤化,資料的時效性等等。

如何保障眾包平臺的效率和品質,是剛起步或一些小型眾包平臺無法攻克的難題。百度眾包憑藉200名專業資料質檢員,以及在6年的實踐中建立起了一套完善的品質管制體系,包括標注員培訓體系、資料的機器審核體系、資料人工審核體系等,確保我們資料加工的品質滿足客戶要求。

資料服務

自籌資料、對接公共資料庫或行業資料,都擁有較高的資料獲取處理成本。因此需要有專業的資料服務商對資料進行共建和分享,整合成資料服務。

眾包是一種高效的資料建設模式

通過我們的實踐表明,利用眾包模式共用勞動力,形成資料共建模式,不僅可為企業提供高效高質地可用資料,更可以節約成本。

以3000小時的普通話語音採集為例,百度眾包首先結合線上線下多種管道的運營活動,充分調動眾包用戶在真實環境下的積極參與,平均一天採集100小時語音資料;而後又對採集的資料進行清洗(語音文本匹配,清晰度,去重等)和語音文本轉寫標注(誤差率<3.5%);最後以資料服務方式提供給語音助手,語音輸入法,語音客服等領域的智慧客戶,為相關模型演算法提供精准學習語料。

百度眾包除了資料服務外,還將眾包模式及雲技術結合。基於百度10餘條過億用戶APP測試經驗的累計和驗證,將百度領先的測試技術以百度移動雲測試中心_MTC平臺對外推出。通過雲測實驗室的海量真實手機及百度專業的測試專家團隊,為企業提供移動App定制測試方案;同時通過獨創的當地語系化移動App測試解決方案,可為企業迅速搭建一個內網真機自動化測試實驗室,實現測試資料私有,設備遠端系統管理等服務,助力企業快速實現移動化。

資料的時效性等等。

如何保障眾包平臺的效率和品質,是剛起步或一些小型眾包平臺無法攻克的難題。百度眾包憑藉200名專業資料質檢員,以及在6年的實踐中建立起了一套完善的品質管制體系,包括標注員培訓體系、資料的機器審核體系、資料人工審核體系等,確保我們資料加工的品質滿足客戶要求。

資料服務

自籌資料、對接公共資料庫或行業資料,都擁有較高的資料獲取處理成本。因此需要有專業的資料服務商對資料進行共建和分享,整合成資料服務。

眾包是一種高效的資料建設模式

通過我們的實踐表明,利用眾包模式共用勞動力,形成資料共建模式,不僅可為企業提供高效高質地可用資料,更可以節約成本。

以3000小時的普通話語音採集為例,百度眾包首先結合線上線下多種管道的運營活動,充分調動眾包用戶在真實環境下的積極參與,平均一天採集100小時語音資料;而後又對採集的資料進行清洗(語音文本匹配,清晰度,去重等)和語音文本轉寫標注(誤差率<3.5%);最後以資料服務方式提供給語音助手,語音輸入法,語音客服等領域的智慧客戶,為相關模型演算法提供精准學習語料。

百度眾包除了資料服務外,還將眾包模式及雲技術結合。基於百度10餘條過億用戶APP測試經驗的累計和驗證,將百度領先的測試技術以百度移動雲測試中心_MTC平臺對外推出。通過雲測實驗室的海量真實手機及百度專業的測試專家團隊,為企業提供移動App定制測試方案;同時通過獨創的當地語系化移動App測試解決方案,可為企業迅速搭建一個內網真機自動化測試實驗室,實現測試資料私有,設備遠端系統管理等服務,助力企業快速實現移動化。