冠軍獎30萬！劉強東搞了個“豬臉識別”比賽，中美兩地同時啟動

編輯 | Katerina Donna

潤色 | 鴿子

11月6日，由京東金融與紅杉資本聯合主辦的首屆“JDD-2017京東金融全球資料探索者大會”在751大罐舉行，同時，大會宣佈首屆“JDD-2017京東金融全球資料探索者大賽”也於今日開始，

在中美兩地同步啟動。

為了這個大賽，京東金融真是不惜下了血本了。

首先是京東的當家掌櫃也親自來給大會月臺。京東集團董事局主席兼首席執行官劉強東在會上特別說到：“隨著公司不斷做大，我們在行業內做的越來越深入，無論是從全球範圍還是從整個國家來看，我們都確實需要一個龐大的生態體系，只有這樣整個行業才能逐步健康和健全起來。正是基於企業壯大後，做開放的生態系統的心態，京東金融攜手紅杉資本舉辦了此次JDD大賽。 ”

在東哥的演講中，請注意他提到的生態體系。換句話說，京東如今的體量，它要做的不是某項具體的業務，而是要專注於賦能，

不斷增強內力，修煉內功。而如今，最重要的內功是什麼呢？如何更好地賦能呢？

“科技賦能”，劉強東說到， “在這個時代， AI既是一種技術，也是一種思考方式。 ”

結合到本次比賽， AI正是劉強東當下最重要的內功，那麼很自然，選拔AI人才必須是件刻不容緩的重要事兒。

JDD大賽到底玩什麼？

於是，結合京東最緊要的業務，一場關於AI人才選拔賽拉開了。這次比賽規格相對比較高，同時中美兩地進行。

由於金融業務是京東未來最大的發力點，因此，此次比賽主要瞄準金融業務，涉及四大選題：

登陸行為識別

店鋪銷量預測

信貸需求評估

豬臉識別

大賽將選手劃分為兩個組別，分別是商業組和演算法組。

為了更好地輔導選手，本次大賽引入了導師制。導師將為選手提供48小時貼身輔導。

其中，商業組總決賽導師分別為：

登陸行為識別的導師——TalkingData首席執行官崔曉波

店鋪銷量預測的導師——紅杉資本中國基金專家合夥人車品覺

信貸需求評估的導師——微軟亞洲研究院城市計算領域負責人、美國電腦學會傑出科學家鄭宇

豬臉識別的導師——國際人工智慧聯合理事會主席、香港科技大學電腦科學及工程學系主任楊強

此外，大賽的評委包括：

陳生強——京東金融CEO

侯曉天——天灝資本首席執行官

胡瑩——中國銀聯助理總裁

馬甯——領渢資本創始合夥人

沈南鵬——紅杉資本全球執行合夥人

唐傑——清華大學電腦科學與技術系副教授、系科研辦公室主任

衛哲——嘉禦基金創始合夥人兼董事長

周濤——電子科技大學互聯網科學中心主任

周煒——創世夥伴資本創始主管合夥人

不得不提的是本次大賽的獎金：上個圖先

其中，商業組冠軍1名，獎金30萬，演算法組冠軍共4名，每名獲得30萬獎金。

30萬啊，這可是國內人工智慧大賽單項最高獎金紀錄，除獎金外，獲勝團隊有望對接到相應的投資。

值得一提的是，本次JDD大賽中一道關於“豬臉識別”的賽題，真是別具一格，來看看這具體是一道怎樣的別致賽題：

別具一格的賽題——豬臉識別

說到“豬臉識別”，還要從一個故事引入。話說，家住北京周邊的養豬專業戶老張最近遇到了一個難題，經過多年的辛苦勞動以及經營，他家的養豬場規模也是越來越大，豬的數量從原來的幾頭發展到現在的上百頭。

看著這麼多的肥豬，老張心裡美滋滋。可是伴隨著豬對的數量增長，讓人發愁的事情也隨之而來。這些豬的體型都很相近，老張想要清晰的分辨出每頭豬變得越來越困難。

可是，為了瞭解每頭豬的狀態，他又必須得認清每一頭豬，此豬而非彼諸。

怎麼辦呢？

要分辯不同的人，有人臉識別；同理，要認清不同的豬，就整個豬臉識別唄！（豬也是這麼想的）

那京東為什麼花大力氣來做這個賽題呢？它能得到什麼好處？

在JDD-2017 京東金融全球資料探索者大會上，國際人工智慧聯合會理事會主席、香港科技大學電腦科學及工程學系主任楊強對於“豬臉識別”是這麼看的，“首先我們可以獲取大量資料，而不用擔心隱私問題，我們想豬可能不太關心隱私。此外，這涉及到一個活體識別的問題，背後確實存在一個商業場景的問題。”

也就是說，好處有三：

第一，隱私的問題將不存在；

第二，可以更好地研究活體識別；

第三，沒准能將此經驗複製到其他場景。

那麼，其中的經驗到底還可以應用於哪些場景呢？關於這個問題，營長目前還沒有得到滿意的答案。

通過豬臉識別，養豬戶老張能得到什麼好處呢？

楊強提到，AI能輕鬆地幫他鑒別出，不同的豬只在養殖過程中的各種活動，於是，老張能看到這個豬是不是活躍，是不是萎靡，如果是一隻非常不愛動的豬，就可以在一定程度上對它的健康作決策，繼而保險就可以做出相關預測。

再者，消費者可能喜歡不同類型的豬肉，這又是對豬的鑒別衍生出的個別化需求。

別看它就是一隻豬，這其中可既有深度學習的應用，又有商業應用，既有趣，又極有未來潛力。

想來認豬嗎？今天就可以報名啦。

官方消息顯示，自11月6日開始，參賽團隊就可以通過“JDD—2017京東金融全球資料探索者大賽”官網進行報名。

本著體貼周到服務讀者的原則，營長在此將比賽有關的所有重要資訊，包括所有賽題的背景及相關重要資訊羅列如下，希望對你有所幫助。

比賽詳細資訊

比賽日程（重要的時間節點請注意）

11.06-11.20——報名。參賽選手通過「JDD—2017京東金融全球資料探索者大賽」官網進行報名報名成功後即可進入選拔賽。

11.09-12.12——選拔賽。根據賽題通過機器評分選出16名參賽選手入總決賽

12.15-12.17——總決賽。16名進入總決賽的選手線下封閉48小時（通過相關材料、資料的提交以及現場展示等環節，分數由評委打分綜合決定，選出冠亞季軍， H5投票現場截止，投票最高者獲得最具網路人氣獎。）

評審標準

選拔賽——通過機器評分選出TOP16

總決賽——由評委根據demo和BP打分排名，打分標準為技術（20%）、創新性（30%）、商業價值（20%）、潛在市場（20%）、現場表現（10%）

網路人氣獎——由H5投票最高者獲得。

關於“豬臉識別”題目的其他問題

本賽題需要參賽者設計一個演算法，能夠通過豬的照片來正確的辨別每一頭豬的身份。訓練資料訓練資料包含30頭豬的視頻素材，每頭豬對應一個檔，時長約1分鐘，檔案名即為豬的編號。參賽者需自行決定如何從視頻中獲取圖像資料。

評測資料測試資料為30頭豬的照片3000張，參賽者需要用演算法來區分這些照片上的豬的身份，即預測每張照片屬於每個類別（豬）的概率。本賽題AB榜評測資料各包含3000張照片，B榜照片的下載將在B榜開放當天掛出來。

根據參賽者提交的圖片分類概率，按如下公式計算得到分數，其中N為測試圖片的數量，M為分類的數量，pij 為預測圖像i是第j頭豬的概率，為防止出現計算異常，計算時會將p替換為max(min(p,1-10-15),10-15)，yij 為圖像i的真實分類，即如果圖像i是第j頭豬，則y=1，否則y=0：提交要求提交的資料檔案應為csv文本，英文逗號分隔，無BOM的utf8編碼，不包含列名。檔中只包含三列：圖片號（id），豬的類別（pig_id），分類概率，必須包含測試集中每張圖片屬於每個分類的概率。

關於信貸需求預測的賽題

通常來說，開展信貸業務不僅需要評估客戶的風險水準，還需要對客戶的借款需求進行預測，做好資金額度與需求的匹配才能提高資金利用率，降低成本並增加收益，因此預測用戶的信貸需求是金條產品運營的核心問題之一。

該賽題需要通過競賽資料中的使用者基本資訊、在移動端的行為資料、購物記錄和歷史借貸資訊來建立預測模型，對未來一個月內用戶的借款總金額進行預測。

其中包含了各種維度的序列資料、品類交易資料，參賽者可以採用各種類型的資料預處理演算法、模型融合等技術來解決信貸需求這個關鍵的商業問題。

訓練資料為2016-08-03到2016-11-30期間，用戶在移動端的行為資料、購物記錄和歷史借貸資訊，及11月的總借款金額。參賽者需要對每個使用者（t_user表中的全部使用者）在2016年12月的總借貸金額進行預測。

要求提交的資料檔案應為csv文本，英文逗號分隔，無BOM的utf8編碼，不包含列名。檔中只包含兩列：用戶id（uid），預測的總借貸金額，其中用戶id必須唯一，必須包含訓練集中的全部使用者。

關於店鋪銷量預測的賽題

對店鋪銷量進行預測是“京小貸”業務信用評估的關鍵環節之一，只有準確的預估店鋪未來的銷量，才能合理的設定貸款額度，提高資金利用率。

該賽題需要對店鋪開展貸款業務需要定期測量和跟蹤經營狀況，對店鋪銷量進行預測是其中的關鍵環節之一，只有這樣才能準確的評估其資金需求並設定合理的貸款額度。

通過競賽資料中店鋪過往的銷售記錄，商品資訊，商品評價，以及廣告費用等資訊來建立預測模型，預測店鋪未來90天內的銷售額。

訓練資料包含2017-04-30日之前270天之內若干店鋪的每日訂單量、銷售額、顧客數、評價數、廣告費用等資料，下架時間在2017-04-30之後或者未下架的商品資料，以及這些店鋪2016年6月-2017年1月每月末後90天內的銷售額，同時需要對每個店鋪（訓練資料中涉及的全部店鋪id）在2017-04-30之後90天內的總銷售額進行預測。

提交的資料檔案應為csv文本，英文逗號分隔，無BOM的utf8編碼，不包含列名。檔中只包含兩列：店鋪id（shop_id），預測銷量，其中店鋪id必須唯一，必須包含全部店鋪。

關於登錄行為識別的賽題

大資料風控引擎會對使用者登錄後進行的每一筆交易進行評判，自動對疑似有風險的交易進行攔截操作。

登錄識別的應用情景是在使用者進行金融交易支付時，通過其近期的登錄行為來判斷本次交易的風險程度，進而及時攔截可疑的支付動作。

需要做到能夠在常用的分類演算法基礎上，構建針對登錄行為識別的、有業務可解釋性的模型，對帳戶的登錄行為進行評判。

訓練資料包括2015年1月1日至6月30日的使用者登錄資訊以及該時段內這些使用者的交易風險標誌，由於使用者不會每次登錄都發生交易，所以風險標誌少於登錄次數，需要自行決定如何將登錄行為與交易行為進行關聯。需要根據2015年7月1日至7月31日的登錄行為資訊，來預測這個時間段中每一筆交易的風險標誌。

提交的資料檔案應為csv文本，英文逗號分隔，無BOM的utf8編碼，不包含列名。檔中只包含兩列：主鍵（rowkey），是否有風險（1表示有風險，0表示無風險），其中主鍵必須唯一，必須包含測試集中的全部rowkey。

最後的話

最後，營長想說，京東願意這麼大力來做這個比賽，營長內心是激動的。這是一個雙贏。

對選手來說，大量的一手的高品質資料將被貢獻出來，選手們不再是空中樓閣般地比拼武藝，而是能融入實際場景，解決實際問題。而一旦能以突破性的方式解決問題，團隊不僅能得到重磅獎金，更重要的是，有希望能直接獲得投資。

對於京東來說，信貸需求預測，店鋪銷量預測是需要升級的核心能力，把問題拋出來，在全社會的智慧中尋找最佳答案，無疑是最省事也是最省錢的方式。如果看中了哪個團隊，也可以直接投資，省去了自建團隊的各種麻煩事。

在前不久，創新工廠發起的AI challenger挑戰賽，搜狗拿出大量資料供選手比賽，由於比賽的資料量大，而且品質高，在選手中頗得好評。

可以想見，由企業發起，解決實際問題的比賽，在明年還會越來越多。這是一個開放的信號：資料、資源、資金、人才、技術，一個都不能少，才能真正促進企業不斷在AI的豪華軍備升級中，拔得頭籌。