您的位置:首頁>科技>正文

冠軍獎30萬!劉強東搞了個“豬臉識別”比賽,中美兩地同時啟動

編輯 | Katerina Donna

潤色 | 鴿子

11月6日, 由京東金融與紅杉資本聯合主辦的首屆“JDD-2017京東金融全球資料探索者大會”在751大罐舉行, 同時, 大會宣佈首屆“JDD-2017京東金融全球資料探索者大賽”也於今日開始,

在中美兩地同步啟動。

為了這個大賽, 京東金融真是不惜下了血本了。

首先是京東的當家掌櫃也親自來給大會月臺。 京東集團董事局主席兼首席執行官劉強東在會上特別說到:“隨著公司不斷做大, 我們在行業內做的越來越深入, 無論是從全球範圍還是從整個國家來看, 我們都確實需要一個龐大的生態體系, 只有這樣整個行業才能逐步健康和健全起來。 正是基於企業壯大後, 做開放的生態系統的心態, 京東金融攜手紅杉資本舉辦了此次JDD大賽。 ”

在東哥的演講中, 請注意他提到的生態體系。 換句話說, 京東如今的體量, 它要做的不是某項具體的業務, 而是要專注於賦能,

不斷增強內力, 修煉內功。 而如今, 最重要的內功是什麼呢?如何更好地賦能呢?

“科技賦能”, 劉強東說到, “在這個時代, AI既是一種技術, 也是一種思考方式。 ”

結合到本次比賽, AI正是劉強東當下最重要的內功, 那麼很自然, 選拔AI人才必須是件刻不容緩的重要事兒。

JDD大賽到底玩什麼?

於是, 結合京東最緊要的業務, 一場關於AI人才選拔賽拉開了。 這次比賽規格相對比較高, 同時中美兩地進行。

由於金融業務是京東未來最大的發力點, 因此, 此次比賽主要瞄準金融業務, 涉及四大選題:

登陸行為識別

店鋪銷量預測

信貸需求評估

豬臉識別

大賽將選手劃分為兩個組別, 分別是商業組和演算法組。

為了更好地輔導選手, 本次大賽引入了導師制。 導師將為選手提供48小時貼身輔導。

其中, 商業組總決賽導師分別為:

登陸行為識別的導師——TalkingData首席執行官 崔曉波

店鋪銷量預測的導師——紅杉資本中國基金專家合夥人 車品覺

信貸需求評估的導師——微軟亞洲研究院城市計算領域負責人、美國電腦學會傑出科學家 鄭宇

豬臉識別的導師——國際人工智慧聯合理事會主席、香港科技大學電腦科學及工程學系主任 楊強

此外, 大賽的評委包括:

陳生強——京東金融CEO

侯曉天——天灝資本首席執行官

胡瑩——中國銀聯助理總裁

馬甯——領渢資本創始合夥人

沈南鵬——紅杉資本全球執行合夥人

唐傑——清華大學電腦科學與技術系副教授、系科研辦公室主任

衛哲——嘉禦基金創始合夥人兼董事長

周濤——電子科技大學 互聯網科學中心主任

周煒——創世夥伴資本創始主管合夥人

不得不提的是本次大賽的獎金:上個圖先

其中,商業組冠軍1名,獎金30萬,演算法組冠軍共4名,每名獲得30萬獎金。

30萬啊,這可是國內人工智慧大賽單項最高獎金紀錄,除獎金外,獲勝團隊有望對接到相應的投資。

值得一提的是,本次JDD大賽中一道關於“豬臉識別”的賽題,真是別具一格,來看看這具體是一道怎樣的別致賽題:

別具一格的賽題——豬臉識別

說到“豬臉識別”,還要從一個故事引入。話說,家住北京周邊的養豬專業戶老張最近遇到了一個難題,經過多年的辛苦勞動以及經營,他家的養豬場規模也是越來越大,豬的數量從原來的幾頭發展到現在的上百頭。

看著這麼多的肥豬,老張心裡美滋滋。可是伴隨著豬對的數量增長,讓人發愁的事情也隨之而來。這些豬的體型都很相近,老張想要清晰的分辨出每頭豬變得越來越困難。

可是,為了瞭解每頭豬的狀態,他又必須得認清每一頭豬,此豬而非彼諸。

怎麼辦呢?

要分辯不同的人,有人臉識別;同理,要認清不同的豬,就整個豬臉識別唄!(豬也是這麼想的)

那京東為什麼花大力氣來做這個賽題呢?它能得到什麼好處?

在JDD-2017 京東金融全球資料探索者大會上,國際人工智慧聯合會理事會主席、香港科技大學電腦科學及工程學系主任楊強對於“豬臉識別”是這麼看的,“首先我們可以獲取大量資料,而不用擔心隱私問題,我們想豬可能不太關心隱私。此外,這涉及到一個活體識別的問題,背後確實存在一個商業場景的問題。”

也就是說,好處有三:

第一,隱私的問題將不存在;

第二,可以更好地研究活體識別;

第三,沒准能將此經驗複製到其他場景。

那麼,其中的經驗到底還可以應用於哪些場景呢?關於這個問題,營長目前還沒有得到滿意的答案。

通過豬臉識別,養豬戶老張能得到什麼好處呢?

楊強提到,AI能輕鬆地幫他鑒別出,不同的豬只在養殖過程中的各種活動,於是,老張能看到這個豬是不是活躍,是不是萎靡,如果是一隻非常不愛動的豬,就可以在一定程度上對它的健康作決策,繼而保險就可以做出相關預測。

再者,消費者可能喜歡不同類型的豬肉,這又是對豬的鑒別衍生出的個別化需求。

別看它就是一隻豬,這其中可既有深度學習的應用,又有商業應用,既有趣,又極有未來潛力。

想來認豬嗎?今天就可以報名啦。

官方消息顯示,自11月6日開始,參賽團隊就可以通過“JDD—2017京東金融全球資料探索者大賽”官網進行報名。

本著體貼周到服務讀者的原則,營長在此將比賽有關的所有重要資訊,包括所有賽題的背景及相關重要資訊羅列如下,希望對你有所幫助。

比賽詳細資訊

比賽日程(重要的時間節點請注意)

11.06-11.20——報名。參賽選手通過「JDD—2017京東金融全球資料探索者大賽」官網進行報名 報名成功後即可進入選拔賽。

11.09-12.12——選拔賽 。根據賽題通過機器評分選出16名參賽選手入總決賽

12.15-12.17——總決賽。16名進入總決賽的選手線下封閉48小時(通過相關材料、資料的提交以及現場展示等環節,分數由評委打分綜合決定,選出冠亞季軍, H5投票現場截止,投票最高者獲得最具網路人氣獎。)

評審標準

選拔賽——通過機器評分選出TOP16

總決賽——由評委根據demo和BP打分排名,打分標準為技術(20%)、創新性(30%)、商業價值(20%)、潛在市場(20%)、現場表現(10%)

網路人氣獎——由H5投票最高者獲得。

關於“豬臉識別”題目的其他問題

本賽題需要參賽者設計一個演算法,能夠通過豬的照片來正確的辨別每一頭豬的身份。訓練資料訓練資料包含30頭豬的視頻素材,每頭豬對應一個檔,時長約1分鐘,檔案名即為豬的編號。參賽者需自行決定如何從視頻中獲取圖像資料。

評測資料測試資料為30頭豬的照片3000張,參賽者需要用演算法來區分這些照片上的豬的身份,即預測每張照片屬於每個類別(豬)的概率。本賽題AB榜評測資料各包含3000張照片,B榜照片的下載將在B榜開放當天掛出來。

根據參賽者提交的圖片分類概率,按如下公式計算得到分數,其中N為測試圖片的數量,M為分類的數量,pij 為預測圖像i是第j頭豬的概率,為防止出現計算異常,計算時會將p替換為max(min(p,1-10-15),10-15),yij 為圖像i的真實分類,即如果圖像i是第j頭豬,則y=1,否則y=0:提交要求提交的資料檔案應為csv文本,英文逗號分隔,無BOM的utf8編碼,不包含列名。檔中只包含三列:圖片號(id),豬的類別(pig_id),分類概率,必須包含測試集中每張圖片屬於每個分類的概率。

關於信貸需求預測的賽題

通常來說,開展信貸業務不僅需要評估客戶的風險水準,還需要對客戶的借款需求進行預測,做好資金額度與需求的匹配才能提高資金利用率,降低成本並增加收益,因此預測用戶的信貸需求是金條產品運營的核心問題之一。

該賽題需要通過競賽資料中的使用者基本資訊、在移動端的行為資料、購物記錄和歷史借貸資訊來建立預測模型,對未來一個月內用戶的借款總金額進行預測。

其中包含了各種維度的序列資料、品類交易資料,參賽者可以採用各種類型的資料預處理演算法、模型融合等技術來解決信貸需求這個關鍵的商業問題。

訓練資料為2016-08-03到2016-11-30期間,用戶在移動端的行為資料、購物記錄和歷史借貸資訊,及11月的總借款金額。參賽者需要對每個使用者(t_user表中的全部使用者)在2016年12月的總借貸金額進行預測。

要求提交的資料檔案應為csv文本,英文逗號分隔,無BOM的utf8編碼,不包含列名。檔中只包含兩列:用戶id(uid),預測的總借貸金額,其中用戶id必須唯一,必須包含訓練集中的全部使用者。

關於店鋪銷量預測的賽題

對店鋪銷量進行預測是“京小貸”業務信用評估的關鍵環節之一,只有準確的預估店鋪未來的銷量,才能合理的設定貸款額度,提高資金利用率。

該賽題需要對店鋪開展貸款業務需要定期測量和跟蹤經營狀況,對店鋪銷量進行預測是其中的關鍵環節之一,只有這樣才能準確的評估其資金需求並設定合理的貸款額度。

通過競賽資料中店鋪過往的銷售記錄,商品資訊,商品評價,以及廣告費用等資訊來建立預測模型,預測店鋪未來90天內的銷售額。

訓練資料包含2017-04-30日之前270天之內若干店鋪的每日訂單量、銷售額、顧客數、評價數、廣告費用等資料,下架時間在2017-04-30之後或者未下架的商品資料,以及這些店鋪2016年6月-2017年1月每月末後90天內的銷售額,同時需要對每個店鋪(訓練資料中涉及的全部店鋪id)在2017-04-30之後90天內的總銷售額進行預測。

提交的資料檔案應為csv文本,英文逗號分隔,無BOM的utf8編碼,不包含列名。檔中只包含兩列:店鋪id(shop_id),預測銷量,其中店鋪id必須唯一,必須包含全部店鋪。

關於登錄行為識別的賽題

大資料風控引擎會對使用者登錄後進行的每一筆交易進行評判,自動對疑似有風險的交易進行攔截操作。

登錄識別的應用情景是在使用者進行金融交易支付時,通過其近期的登錄行為來判斷本次交易的風險程度,進而及時攔截可疑的支付動作。

需要做到能夠在常用的分類演算法基礎上,構建針對登錄行為識別的、有業務可解釋性的模型,對帳戶的登錄行為進行評判。

訓練資料包括2015年1月1日至6月30日的使用者登錄資訊以及該時段內這些使用者的交易風險標誌,由於使用者不會每次登錄都發生交易,所以風險標誌少於登錄次數,需要自行決定如何將登錄行為與交易行為進行關聯。需要根據2015年7月1日至7月31日的登錄行為資訊,來預測這個時間段中每一筆交易的風險標誌。

提交的資料檔案應為csv文本,英文逗號分隔,無BOM的utf8編碼,不包含列名。檔中只包含兩列:主鍵(rowkey),是否有風險(1表示有風險,0表示無風險),其中主鍵必須唯一,必須包含測試集中的全部rowkey。

最後的話

最後,營長想說,京東願意這麼大力來做這個比賽,營長內心是激動的。這是一個雙贏。

對選手來說,大量的一手的高品質資料將被貢獻出來,選手們不再是空中樓閣般地比拼武藝,而是能融入實際場景,解決實際問題。而一旦能以突破性的方式解決問題,團隊不僅能得到重磅獎金,更重要的是,有希望能直接獲得投資。

對於京東來說,信貸需求預測,店鋪銷量預測是需要升級的核心能力,把問題拋出來,在全社會的智慧中尋找最佳答案,無疑是最省事也是最省錢的方式。 如果看中了哪個團隊,也可以直接投資,省去了自建團隊的各種麻煩事。

在前不久,創新工廠發起的AI challenger挑戰賽,搜狗拿出大量資料供選手比賽,由於比賽的資料量大,而且品質高,在選手中頗得好評。

可以想見,由企業發起,解決實際問題的比賽,在明年還會越來越多。這是一個開放的信號:資料、資源、資金、人才、技術,一個都不能少,才能真正促進企業不斷在AI的豪華軍備升級中,拔得頭籌。

其中,商業組冠軍1名,獎金30萬,演算法組冠軍共4名,每名獲得30萬獎金。

30萬啊,這可是國內人工智慧大賽單項最高獎金紀錄,除獎金外,獲勝團隊有望對接到相應的投資。

值得一提的是,本次JDD大賽中一道關於“豬臉識別”的賽題,真是別具一格,來看看這具體是一道怎樣的別致賽題:

別具一格的賽題——豬臉識別

說到“豬臉識別”,還要從一個故事引入。話說,家住北京周邊的養豬專業戶老張最近遇到了一個難題,經過多年的辛苦勞動以及經營,他家的養豬場規模也是越來越大,豬的數量從原來的幾頭發展到現在的上百頭。

看著這麼多的肥豬,老張心裡美滋滋。可是伴隨著豬對的數量增長,讓人發愁的事情也隨之而來。這些豬的體型都很相近,老張想要清晰的分辨出每頭豬變得越來越困難。

可是,為了瞭解每頭豬的狀態,他又必須得認清每一頭豬,此豬而非彼諸。

怎麼辦呢?

要分辯不同的人,有人臉識別;同理,要認清不同的豬,就整個豬臉識別唄!(豬也是這麼想的)

那京東為什麼花大力氣來做這個賽題呢?它能得到什麼好處?

在JDD-2017 京東金融全球資料探索者大會上,國際人工智慧聯合會理事會主席、香港科技大學電腦科學及工程學系主任楊強對於“豬臉識別”是這麼看的,“首先我們可以獲取大量資料,而不用擔心隱私問題,我們想豬可能不太關心隱私。此外,這涉及到一個活體識別的問題,背後確實存在一個商業場景的問題。”

也就是說,好處有三:

第一,隱私的問題將不存在;

第二,可以更好地研究活體識別;

第三,沒准能將此經驗複製到其他場景。

那麼,其中的經驗到底還可以應用於哪些場景呢?關於這個問題,營長目前還沒有得到滿意的答案。

通過豬臉識別,養豬戶老張能得到什麼好處呢?

楊強提到,AI能輕鬆地幫他鑒別出,不同的豬只在養殖過程中的各種活動,於是,老張能看到這個豬是不是活躍,是不是萎靡,如果是一隻非常不愛動的豬,就可以在一定程度上對它的健康作決策,繼而保險就可以做出相關預測。

再者,消費者可能喜歡不同類型的豬肉,這又是對豬的鑒別衍生出的個別化需求。

別看它就是一隻豬,這其中可既有深度學習的應用,又有商業應用,既有趣,又極有未來潛力。

想來認豬嗎?今天就可以報名啦。

官方消息顯示,自11月6日開始,參賽團隊就可以通過“JDD—2017京東金融全球資料探索者大賽”官網進行報名。

本著體貼周到服務讀者的原則,營長在此將比賽有關的所有重要資訊,包括所有賽題的背景及相關重要資訊羅列如下,希望對你有所幫助。

比賽詳細資訊

比賽日程(重要的時間節點請注意)

11.06-11.20——報名。參賽選手通過「JDD—2017京東金融全球資料探索者大賽」官網進行報名 報名成功後即可進入選拔賽。

11.09-12.12——選拔賽 。根據賽題通過機器評分選出16名參賽選手入總決賽

12.15-12.17——總決賽。16名進入總決賽的選手線下封閉48小時(通過相關材料、資料的提交以及現場展示等環節,分數由評委打分綜合決定,選出冠亞季軍, H5投票現場截止,投票最高者獲得最具網路人氣獎。)

評審標準

選拔賽——通過機器評分選出TOP16

總決賽——由評委根據demo和BP打分排名,打分標準為技術(20%)、創新性(30%)、商業價值(20%)、潛在市場(20%)、現場表現(10%)

網路人氣獎——由H5投票最高者獲得。

關於“豬臉識別”題目的其他問題

本賽題需要參賽者設計一個演算法,能夠通過豬的照片來正確的辨別每一頭豬的身份。訓練資料訓練資料包含30頭豬的視頻素材,每頭豬對應一個檔,時長約1分鐘,檔案名即為豬的編號。參賽者需自行決定如何從視頻中獲取圖像資料。

評測資料測試資料為30頭豬的照片3000張,參賽者需要用演算法來區分這些照片上的豬的身份,即預測每張照片屬於每個類別(豬)的概率。本賽題AB榜評測資料各包含3000張照片,B榜照片的下載將在B榜開放當天掛出來。

根據參賽者提交的圖片分類概率,按如下公式計算得到分數,其中N為測試圖片的數量,M為分類的數量,pij 為預測圖像i是第j頭豬的概率,為防止出現計算異常,計算時會將p替換為max(min(p,1-10-15),10-15),yij 為圖像i的真實分類,即如果圖像i是第j頭豬,則y=1,否則y=0:提交要求提交的資料檔案應為csv文本,英文逗號分隔,無BOM的utf8編碼,不包含列名。檔中只包含三列:圖片號(id),豬的類別(pig_id),分類概率,必須包含測試集中每張圖片屬於每個分類的概率。

關於信貸需求預測的賽題

通常來說,開展信貸業務不僅需要評估客戶的風險水準,還需要對客戶的借款需求進行預測,做好資金額度與需求的匹配才能提高資金利用率,降低成本並增加收益,因此預測用戶的信貸需求是金條產品運營的核心問題之一。

該賽題需要通過競賽資料中的使用者基本資訊、在移動端的行為資料、購物記錄和歷史借貸資訊來建立預測模型,對未來一個月內用戶的借款總金額進行預測。

其中包含了各種維度的序列資料、品類交易資料,參賽者可以採用各種類型的資料預處理演算法、模型融合等技術來解決信貸需求這個關鍵的商業問題。

訓練資料為2016-08-03到2016-11-30期間,用戶在移動端的行為資料、購物記錄和歷史借貸資訊,及11月的總借款金額。參賽者需要對每個使用者(t_user表中的全部使用者)在2016年12月的總借貸金額進行預測。

要求提交的資料檔案應為csv文本,英文逗號分隔,無BOM的utf8編碼,不包含列名。檔中只包含兩列:用戶id(uid),預測的總借貸金額,其中用戶id必須唯一,必須包含訓練集中的全部使用者。

關於店鋪銷量預測的賽題

對店鋪銷量進行預測是“京小貸”業務信用評估的關鍵環節之一,只有準確的預估店鋪未來的銷量,才能合理的設定貸款額度,提高資金利用率。

該賽題需要對店鋪開展貸款業務需要定期測量和跟蹤經營狀況,對店鋪銷量進行預測是其中的關鍵環節之一,只有這樣才能準確的評估其資金需求並設定合理的貸款額度。

通過競賽資料中店鋪過往的銷售記錄,商品資訊,商品評價,以及廣告費用等資訊來建立預測模型,預測店鋪未來90天內的銷售額。

訓練資料包含2017-04-30日之前270天之內若干店鋪的每日訂單量、銷售額、顧客數、評價數、廣告費用等資料,下架時間在2017-04-30之後或者未下架的商品資料,以及這些店鋪2016年6月-2017年1月每月末後90天內的銷售額,同時需要對每個店鋪(訓練資料中涉及的全部店鋪id)在2017-04-30之後90天內的總銷售額進行預測。

提交的資料檔案應為csv文本,英文逗號分隔,無BOM的utf8編碼,不包含列名。檔中只包含兩列:店鋪id(shop_id),預測銷量,其中店鋪id必須唯一,必須包含全部店鋪。

關於登錄行為識別的賽題

大資料風控引擎會對使用者登錄後進行的每一筆交易進行評判,自動對疑似有風險的交易進行攔截操作。

登錄識別的應用情景是在使用者進行金融交易支付時,通過其近期的登錄行為來判斷本次交易的風險程度,進而及時攔截可疑的支付動作。

需要做到能夠在常用的分類演算法基礎上,構建針對登錄行為識別的、有業務可解釋性的模型,對帳戶的登錄行為進行評判。

訓練資料包括2015年1月1日至6月30日的使用者登錄資訊以及該時段內這些使用者的交易風險標誌,由於使用者不會每次登錄都發生交易,所以風險標誌少於登錄次數,需要自行決定如何將登錄行為與交易行為進行關聯。需要根據2015年7月1日至7月31日的登錄行為資訊,來預測這個時間段中每一筆交易的風險標誌。

提交的資料檔案應為csv文本,英文逗號分隔,無BOM的utf8編碼,不包含列名。檔中只包含兩列:主鍵(rowkey),是否有風險(1表示有風險,0表示無風險),其中主鍵必須唯一,必須包含測試集中的全部rowkey。

最後的話

最後,營長想說,京東願意這麼大力來做這個比賽,營長內心是激動的。這是一個雙贏。

對選手來說,大量的一手的高品質資料將被貢獻出來,選手們不再是空中樓閣般地比拼武藝,而是能融入實際場景,解決實際問題。而一旦能以突破性的方式解決問題,團隊不僅能得到重磅獎金,更重要的是,有希望能直接獲得投資。

對於京東來說,信貸需求預測,店鋪銷量預測是需要升級的核心能力,把問題拋出來,在全社會的智慧中尋找最佳答案,無疑是最省事也是最省錢的方式。 如果看中了哪個團隊,也可以直接投資,省去了自建團隊的各種麻煩事。

在前不久,創新工廠發起的AI challenger挑戰賽,搜狗拿出大量資料供選手比賽,由於比賽的資料量大,而且品質高,在選手中頗得好評。

可以想見,由企業發起,解決實際問題的比賽,在明年還會越來越多。這是一個開放的信號:資料、資源、資金、人才、技術,一個都不能少,才能真正促進企業不斷在AI的豪華軍備升級中,拔得頭籌。

Next Article
喜欢就按个赞吧!!!
点击关闭提示