您的位置:首頁>科技>正文

獨家:LinkedIn總部資料科學戰隊,頂級團隊勝在軟實力

作者 | 魏子敏, Yawei Xia

薛婭菲和Aileen對本文亦有貢獻

*本文為清華資料科學研究院聯合大資料文摘發起的《資料團隊建設全景報告》系列專訪的第一篇內容。

從某種程度上講, 目前矽谷乃至全球最火爆的職業【Data Scientist】始於LinkedIn。

2008年, LinkedIn的資料科學團隊負責人DJ Patil 和Facebook的Jeff Hammerbacher分別建立了全世界前兩個真正意義上的資料科學團隊, 並且開始用“資料科學家(data scientist)這個詞來描述他們的工作性質。 在這之後, Data Science這個行業和Data Scientist這個職業逐漸流行開。

而要探索資料科學團隊的建設, 沒有哪個團隊比LinkedIn及其使用者增長部門資料科學團隊的負責人周洋更有發言權。

2013年加入LinkedIn增長與國際業務部門, 周洋帶領自己的資料科學團隊見證了LinkedIn用戶量“穩定且健康”的增長並從資料上提供業務支援, 幫助LinkedIn實現全球註冊用戶從二點五億到五億的增長, 而他將這些歸功於LinkedIn對資料團隊的重視和資料驅動的文化氛圍。

周洋認為, 一位元合格的資料科學家的終極目的是解決“不確定性”。 他不僅應該是致力為公司解決實際問題的科技人員, 同時在戰略決策層面, 也應該要有為公司發現新的利益增長點的商人格局。

LinkedIn(領英)增長與國際業務資料科學負責人 - 周洋

資料科學團隊“嵌入式”工作日常數據科學家跟跑全程

“資料科學家要説明產品經理實現增長使用者的目的, 為產品團隊提供技術支援, 另一方面與工程師確定最後如何實現技術落地。 ”周洋如此描述一個資料科學團隊工作的最核心內容, 這也是被他稱作“嵌入式”的資料科學團隊工作圖景。

走進周洋的資料科學團隊, 你首先可以從“座次表”看出他們“嵌入式”的工作模式:這個20多人的資料科學家團隊是嵌入在LinkedIn 150多人的增長產品團隊中的, 資料科學家與工程師、產品經理從“地理位置”上首先有一種親近感。

“我們的資料科學家大多數都和他們支持的業務團隊在一起, 比如支援病毒式增長(virus growth)的科學家就和這個團隊的業務負責人坐在一起,

我又跟增長團隊負責人坐在一起, 這種嵌入式模式非常有效。 ”周洋稱。

這種嵌入式的合作模式在科技公司非常常見, 資料科學家在產品團隊中, 與產品經理和工程團隊一起, 是整個團隊的三根支柱(pillar)。 只有這三根支柱緊密協作, 才能讓整個產品團隊將各自的專業優勢發揮到最大, 使得產品團隊能夠高效運行。

一方面需要對公司業務和痛點有足夠深刻的認知, 才能與產品經理合作, 尋找業務增長點和機會;另一方面, 資料科學家與工程師及時有效的溝通, 也能保證更準確地度量新產品對於用戶行為的影響, 保證最大化向用戶傳遞的價值。

周洋稱, LinkedIn是一個有著強大資料驅動文化的公司, 我們希望資料科學家能夠一個人跟完整個產品週期。

資料科學家越早的進入整個過程, 越能夠更有效率的工作, 而在開展新人培訓時, 也會強調這一點。

“季度之初, 資料科學家會跟業務部門溝通新一季度的工作計畫, 哪些需要資料支援。 ”在具體工作的實施上, 周洋稱資料科學家會從一開始就主動介入, “我們會幫他們確定要做什麼, 哪些需要跟進。 對於一些戰略性或者可拓展性的工作, (不緊急但是重要的)我們也會明確去做。 ”

對產品的技術支援是資料科學團隊最基礎的職責, 也占了周洋團隊日常工作的70%。 剩下的20%和10%的時間分別用於戰略性項目或者風險項目。

金字塔結構:資料團隊提供的價值和對應職能

如果說一個資料科學團隊通過金字塔底部70%的工作確保了一個公司日常工作的高效率,那麼占日常工作20%的戰略決策工作則決定了一個公司的發展前景。

對於一個資料驅動的公司,資料科學家的眼界對公司創新的想像力有著很重要的影響,資料科學家在戰略決策層面將有機會向公司高管提供建議,並能夠確保戰略的實施,從長遠來講對科技公司的發展意義深遠。

資料民主化讓每一次決策 有“數”可尋

一個公司能否有領先市場的發展,決策者的眼界非常重要,高管對資料是否敏感,能否下決心把資料推動做好,決定了這個公司的前景和競爭力。

LinkedIn的CEO Jeff Weiner以強大的運營背景著稱業內,受其影響,整個LinkedIn的資料驅動文化也頗為強大,高層對資料和技術非常敏感。

LinkedIn(領英)CEO Jeff Weiner

關於這點,周洋提到了一個細節,Jeff Weiner每天早上都會看一份每小時更新的資料包告,根據報告他能迅速瞭解到關於業務表現的很多資訊,他還會將發現的問題立即發回至業務團隊尋求解答。由於資料團隊創建的“優質運營(operational excellence)”框架,很多時候這些問題都會從現有的資料包告中找到答案,或者已經提前發出通知。

周洋認為,其實不僅CEO和高管,資料科學團隊應該為公司不同層面的每一次決策提供戰略支援,周洋稱,“小到頁面流覽量下降的原因,大到一個公司發展的戰略方向,解決不同層面決策者面臨的不確定性問題是資料科學家的終極目標。”

資料科學團隊的任務不該止步于技術開發,他們更大的價值是將一個虛無縹緲的概念剖開,成為資料可以解答的問題——建立框架和分析角度,分解大而全的問題,用資料分析給出小而美的答案,進一步將其變成產品建議,進而為領導層提供決策依據。

而為了讓業務部門養成資料決策的習慣,周洋的團隊開設了一些內部培訓,比如組織資料類專題講座Data Boot Camp,對公司不同角色的人,包括產品經理人、產品設計師和工程師進行資料平臺使用的培訓:教他們去使用相關系統,去瞭解與資料科學家合作的整個流程。這個過程最主要的目的是讓資料更加民主化,並培養他們跟資料科學團隊合作的習慣。

“更重要的是讓管理者真正看到資料給商業帶來的價值。只有當公司的大部分成員開始享受資料團隊帶來的便利時,整個團隊的效率才會共同提升,資料科學家的價值才會被廣泛認可。”周洋稱。

可擴展的資料分析解決方案:將資料科學家從重複性勞動中解放出來

可擴展的資料分析解決方案是LinkedIn另一個讓周洋引以為豪的工作成就,也是資料科學團隊金字塔最頂端的工作。可擴展的資料分析解決方案看似只是在運營實施過程中進行流程優化和自動化,實際上意義重大。

A/B測試是資料產品上線後的例行步驟,也是讓很多資料科學家頭疼的麻煩事。之前,LinkedIn測試的過程需要資料科學家對每個A/B測試手動寫代碼並在資料平臺上計算,非常費時間。後來,資料團隊建立了一個平臺,將A/B測試的過程簡單化、自動化。自那以後,每次做測試,工程師可以直接在平臺上創建調試,產品經理也可以在測試開始幾小時後直接去平臺上查看測試結果,其中包括數千個度量(metric)指標以及所有相關的統計計算,整個過程幾乎不需要資料科學家的介入。在這個平臺上,同時有上千個A/B測試在同時運行。

在這個小的工作流程優化上,LinkedIn非常有預見性地將資料科學家從重複繁瑣的勞動中解放了出來,使他們可以更專注地做需要創造力和判斷力的工作,整個團隊的工作效率和影響力(impact)因此大大提高;從另一個角度上,也說明LinkedIn的資料戰略滲透地非常徹底。

我的公司需要一個資料科學團隊嗎?

在資料驅動、大資料大行其道的今天,似乎每個公司都在招募一個資料科學團隊,或者至少是一個資料科學家。

“我的公司需要一個資料科學團隊嗎?”這是目前困擾很多公司,尤其是初創公司的難題。

周洋對此有自己的想法:“應該有,但是在不同的階段,不同的公司應有不同側重。處於不同階段的公司對資料的需求不同,資料的解決方案也不同,公司應該先瞭解自己的業務特點,再決定制定適宜的資料戰略,對自身實際情況有一個準確的定位才能起到事半功倍的效果。”

著名的二八法則在這裡頗為適用。周洋建議,對於大部分剛起步的小公司來說,首先應該用20%的時間去實現最基本的資料支援,這樣可以達到80% 的業務提高,而剩下20%的提高卻需要投入80%的資源才能實現。那麼,在人力和資源都極其缺乏的情況下,一家初創公司最重要的任務不是去實現先進和複雜的演算法,而是利用現有的開源軟體、工具包和最基本的演算法實現從無到有的資料支援。

解決各個層面的“不確定性”是資料科學家的終極目的

那麼一個好的資料科學家到底應該有什麼樣的屬性呢?

周洋認為決定一個科學家優秀程度的重要因素並不是技術水準。在他看來,技術是可以培養提高的,但一個資料科學家對業務問題的批判性思維、擁有將業務問題拆分成可回答的資料問題的轉換能力,以及最終將解決方案清晰簡潔地傳達給決策者的溝通能力,才是優秀資料科學家的價值體現。

這裡我們直接摘錄周洋的原話,以期給各位完整呈現LinkedIn對資料科學家的期待。

周洋:很多時候,一個資料科學家的技術能力是可以訓練出來的,一個通過面試的電腦、統計、運籌學、數學、電子工程相關領域的人才,他的計算能力、程式設計能力都不會太差。而真正困難的是對業務的瞭解。

我們資料科學團隊的宗旨是:To make data-driven decision at scale。這裡有幾個關鍵字:資料驅動(data-driven),決策(decision),可擴展化(scale)。我們通常會鼓勵我們的資料科學家積極主動地介入業務,比如我們在接到到業務部門的問題時,應該多問一下,你為什麼想要知道這個資料,你為什麼要問這個問題,上下文(context)是什麼,最終要解決什麼樣的業務問題。多問幾次,有時候會發現,提問的人想知道的問題,並不是他問的這個問題可以解決的。那我們再一起來探索、分析你想瞭解什麼,怎麼樣通過資料分析去解決。但團隊的目的不是分析,而是通過分析達到洞察(insight),從而提出建議。

不要用工程師的衡量標準(寫了多少代碼)來衡量資料科學家。我們衡量工作的標準是對業務產生的影響:尋找新的業務機會、改進現有業務流程、或者確定業務方向。

對於資料科學家來說,最終要解決的問題是“不確定性”。這個不確定性會有很多不同層面,每個不同層面也都有不同的決策者:微觀的層面,工程師會希望知道流覽量下降了5%是否應該引起重視?產品經理會想要知道,一個產品想法能否有效落地?再大一點,對於CEO來說,他會想要知道,公司的發展策略上,如何再增長10億用戶?這都是一些不確定的東西。資料科學家的工作是去消滅各個不同層面的“不確定性”。

實施分析是很多人都能做的,但是回到業務起始,解決充滿不確定性的抽象問題,才是最難得的品質:從拿到這個問題,到回答這個問題,包括拿到這個問題的批判性思維,通過一個框架把問題剖析分析成很多不同的角度和任務,告訴決策者應該怎麼做。

你向決策者呈現的不一定是一個很高大上的視覺化圖表,而更應該是可以用一句話描述的內容,甚至可以不包括數位。比如告訴我們的CEO,應該更好的發展移動端戰略。而關於為什麼要這麼做,我們再進一步去展示資料維度的原因。我們的最終目的始終是説明決策者決策。

那麼總結來說,我認為一個好的資料科學家應該有以下兩種技能:

1、批判性思維,能夠把一個業務問題有效拆分,通過一個系統框架轉化為資料分析子問題;

2、溝通能力,拿到分析結果後能夠總結洞察並提出業務建議,然後精准且有效率的與決策者溝通,輔助其決策。

這兩個技能是我們對團隊中資深資料科學家的要求。

周洋說,“我非常欣賞LinkedIn的一點是,除了它的資料驅動文化,LinkedIn鼓勵一個人不要做螺絲釘,給每個人包括資料科學家更大的發揮空間,鼓勵他們跳出自己的“資料專家”角色局限,做一個真正有影響力的問題解決者。LinkedIn也十分鼓勵每個資料科學人才找到自己的長處,實現個人價值的最大化。”從這些我們可以看出LinkedIn的內部文化非常提倡每個人不斷超越自我,各施所長。

不要局限于自己現有的固定角色。這一點不僅對資料科學家或資料科學團隊很重要,相信也是這個時代的每個人都應銘記于心的生存準則。

金字塔結構:資料團隊提供的價值和對應職能

如果說一個資料科學團隊通過金字塔底部70%的工作確保了一個公司日常工作的高效率,那麼占日常工作20%的戰略決策工作則決定了一個公司的發展前景。

對於一個資料驅動的公司,資料科學家的眼界對公司創新的想像力有著很重要的影響,資料科學家在戰略決策層面將有機會向公司高管提供建議,並能夠確保戰略的實施,從長遠來講對科技公司的發展意義深遠。

資料民主化讓每一次決策 有“數”可尋

一個公司能否有領先市場的發展,決策者的眼界非常重要,高管對資料是否敏感,能否下決心把資料推動做好,決定了這個公司的前景和競爭力。

LinkedIn的CEO Jeff Weiner以強大的運營背景著稱業內,受其影響,整個LinkedIn的資料驅動文化也頗為強大,高層對資料和技術非常敏感。

LinkedIn(領英)CEO Jeff Weiner

關於這點,周洋提到了一個細節,Jeff Weiner每天早上都會看一份每小時更新的資料包告,根據報告他能迅速瞭解到關於業務表現的很多資訊,他還會將發現的問題立即發回至業務團隊尋求解答。由於資料團隊創建的“優質運營(operational excellence)”框架,很多時候這些問題都會從現有的資料包告中找到答案,或者已經提前發出通知。

周洋認為,其實不僅CEO和高管,資料科學團隊應該為公司不同層面的每一次決策提供戰略支援,周洋稱,“小到頁面流覽量下降的原因,大到一個公司發展的戰略方向,解決不同層面決策者面臨的不確定性問題是資料科學家的終極目標。”

資料科學團隊的任務不該止步于技術開發,他們更大的價值是將一個虛無縹緲的概念剖開,成為資料可以解答的問題——建立框架和分析角度,分解大而全的問題,用資料分析給出小而美的答案,進一步將其變成產品建議,進而為領導層提供決策依據。

而為了讓業務部門養成資料決策的習慣,周洋的團隊開設了一些內部培訓,比如組織資料類專題講座Data Boot Camp,對公司不同角色的人,包括產品經理人、產品設計師和工程師進行資料平臺使用的培訓:教他們去使用相關系統,去瞭解與資料科學家合作的整個流程。這個過程最主要的目的是讓資料更加民主化,並培養他們跟資料科學團隊合作的習慣。

“更重要的是讓管理者真正看到資料給商業帶來的價值。只有當公司的大部分成員開始享受資料團隊帶來的便利時,整個團隊的效率才會共同提升,資料科學家的價值才會被廣泛認可。”周洋稱。

可擴展的資料分析解決方案:將資料科學家從重複性勞動中解放出來

可擴展的資料分析解決方案是LinkedIn另一個讓周洋引以為豪的工作成就,也是資料科學團隊金字塔最頂端的工作。可擴展的資料分析解決方案看似只是在運營實施過程中進行流程優化和自動化,實際上意義重大。

A/B測試是資料產品上線後的例行步驟,也是讓很多資料科學家頭疼的麻煩事。之前,LinkedIn測試的過程需要資料科學家對每個A/B測試手動寫代碼並在資料平臺上計算,非常費時間。後來,資料團隊建立了一個平臺,將A/B測試的過程簡單化、自動化。自那以後,每次做測試,工程師可以直接在平臺上創建調試,產品經理也可以在測試開始幾小時後直接去平臺上查看測試結果,其中包括數千個度量(metric)指標以及所有相關的統計計算,整個過程幾乎不需要資料科學家的介入。在這個平臺上,同時有上千個A/B測試在同時運行。

在這個小的工作流程優化上,LinkedIn非常有預見性地將資料科學家從重複繁瑣的勞動中解放了出來,使他們可以更專注地做需要創造力和判斷力的工作,整個團隊的工作效率和影響力(impact)因此大大提高;從另一個角度上,也說明LinkedIn的資料戰略滲透地非常徹底。

我的公司需要一個資料科學團隊嗎?

在資料驅動、大資料大行其道的今天,似乎每個公司都在招募一個資料科學團隊,或者至少是一個資料科學家。

“我的公司需要一個資料科學團隊嗎?”這是目前困擾很多公司,尤其是初創公司的難題。

周洋對此有自己的想法:“應該有,但是在不同的階段,不同的公司應有不同側重。處於不同階段的公司對資料的需求不同,資料的解決方案也不同,公司應該先瞭解自己的業務特點,再決定制定適宜的資料戰略,對自身實際情況有一個準確的定位才能起到事半功倍的效果。”

著名的二八法則在這裡頗為適用。周洋建議,對於大部分剛起步的小公司來說,首先應該用20%的時間去實現最基本的資料支援,這樣可以達到80% 的業務提高,而剩下20%的提高卻需要投入80%的資源才能實現。那麼,在人力和資源都極其缺乏的情況下,一家初創公司最重要的任務不是去實現先進和複雜的演算法,而是利用現有的開源軟體、工具包和最基本的演算法實現從無到有的資料支援。

解決各個層面的“不確定性”是資料科學家的終極目的

那麼一個好的資料科學家到底應該有什麼樣的屬性呢?

周洋認為決定一個科學家優秀程度的重要因素並不是技術水準。在他看來,技術是可以培養提高的,但一個資料科學家對業務問題的批判性思維、擁有將業務問題拆分成可回答的資料問題的轉換能力,以及最終將解決方案清晰簡潔地傳達給決策者的溝通能力,才是優秀資料科學家的價值體現。

這裡我們直接摘錄周洋的原話,以期給各位完整呈現LinkedIn對資料科學家的期待。

周洋:很多時候,一個資料科學家的技術能力是可以訓練出來的,一個通過面試的電腦、統計、運籌學、數學、電子工程相關領域的人才,他的計算能力、程式設計能力都不會太差。而真正困難的是對業務的瞭解。

我們資料科學團隊的宗旨是:To make data-driven decision at scale。這裡有幾個關鍵字:資料驅動(data-driven),決策(decision),可擴展化(scale)。我們通常會鼓勵我們的資料科學家積極主動地介入業務,比如我們在接到到業務部門的問題時,應該多問一下,你為什麼想要知道這個資料,你為什麼要問這個問題,上下文(context)是什麼,最終要解決什麼樣的業務問題。多問幾次,有時候會發現,提問的人想知道的問題,並不是他問的這個問題可以解決的。那我們再一起來探索、分析你想瞭解什麼,怎麼樣通過資料分析去解決。但團隊的目的不是分析,而是通過分析達到洞察(insight),從而提出建議。

不要用工程師的衡量標準(寫了多少代碼)來衡量資料科學家。我們衡量工作的標準是對業務產生的影響:尋找新的業務機會、改進現有業務流程、或者確定業務方向。

對於資料科學家來說,最終要解決的問題是“不確定性”。這個不確定性會有很多不同層面,每個不同層面也都有不同的決策者:微觀的層面,工程師會希望知道流覽量下降了5%是否應該引起重視?產品經理會想要知道,一個產品想法能否有效落地?再大一點,對於CEO來說,他會想要知道,公司的發展策略上,如何再增長10億用戶?這都是一些不確定的東西。資料科學家的工作是去消滅各個不同層面的“不確定性”。

實施分析是很多人都能做的,但是回到業務起始,解決充滿不確定性的抽象問題,才是最難得的品質:從拿到這個問題,到回答這個問題,包括拿到這個問題的批判性思維,通過一個框架把問題剖析分析成很多不同的角度和任務,告訴決策者應該怎麼做。

你向決策者呈現的不一定是一個很高大上的視覺化圖表,而更應該是可以用一句話描述的內容,甚至可以不包括數位。比如告訴我們的CEO,應該更好的發展移動端戰略。而關於為什麼要這麼做,我們再進一步去展示資料維度的原因。我們的最終目的始終是説明決策者決策。

那麼總結來說,我認為一個好的資料科學家應該有以下兩種技能:

1、批判性思維,能夠把一個業務問題有效拆分,通過一個系統框架轉化為資料分析子問題;

2、溝通能力,拿到分析結果後能夠總結洞察並提出業務建議,然後精准且有效率的與決策者溝通,輔助其決策。

這兩個技能是我們對團隊中資深資料科學家的要求。

周洋說,“我非常欣賞LinkedIn的一點是,除了它的資料驅動文化,LinkedIn鼓勵一個人不要做螺絲釘,給每個人包括資料科學家更大的發揮空間,鼓勵他們跳出自己的“資料專家”角色局限,做一個真正有影響力的問題解決者。LinkedIn也十分鼓勵每個資料科學人才找到自己的長處,實現個人價值的最大化。”從這些我們可以看出LinkedIn的內部文化非常提倡每個人不斷超越自我,各施所長。

不要局限于自己現有的固定角色。這一點不僅對資料科學家或資料科學團隊很重要,相信也是這個時代的每個人都應銘記于心的生存準則。

Next Article
喜欢就按个赞吧!!!
点击关闭提示