華文網

漫談今日頭條、大資料與智慧推薦演算法

又幾天沒和大家聊天了,最近個人有點毛燥,需多吃些草,

沉澱一下,擠出精力來寫技術文章。我儘量寫有用的,寫書的人容易用書面語,文白混雜,大家湊和著看,歡迎來人來函來稿。

其實在互聯網生活裡,內容推薦技術已經無處不在了。

我從Amazon買了一本《時間簡史》,回過頭來再流覽,它可能推薦我可能喜歡《未來簡史》,或者推薦《PHP高性能應用開發與實踐》(它還沒智慧到知道是我寫的,歡迎大家支持,一個知識份子碼農能說這樣的話也是夠了 ^_^)。

我登錄YouTube上看小電影,它推薦我可能喜歡的視頻。友情提示,如果電腦是共用的,同學們千萬要注意哦~

為了支持小紮,我上Facebook,它會推薦哪些朋友更新,哪些人你可能認識。最要命是它會推薦一些你可能喜歡的美女,要注意這些人可能只是照片長得好看...

今日頭條一打開,就給我推薦互聯網相關的內容,還給我推薦單身攻略,婚姻修養,歷史鉤沉,社會雜聞,還有我這九零後看不懂得的段子,是名符其實的『今日辣條』。實在忒low,我這麼高雅的人,這種低級趣味真是看夠了。

低頭族除了玩手機,然後就是塞著耳機聽音樂,網易雲音樂。QQ音樂,蝦米

掌握了你的重口味。

要查看其它語言的網站,Google會幫我們自動翻譯27國語言。更逆天的是,

它竟然能夠翻譯視頻裡的字,比如把可口可樂的英文說明轉成中文,可以把英文字幕轉成中文。最新的翻譯包括語音翻譯、點按翻譯、實景翻譯、離線翻譯,有圖有真像!

標準機械化的文章完全可以取代編輯,由機器人來代寫了。特別是導購類,

新聞資訊文章,大家敢快學語文去。

查找航班,買火車票,機器幫我們預測票價,自動搶票等能力。

還有購買基金,選股票神馬的。像前段時間支付寶同學執著的想加入社交,產品經理們都開始拉妹子線上了,就差沒做出『你附近的有錢人』,這樣,怕是沒人敢用支付寶了。

這些後端都來自於機器學習演算法。機器學習演算法屬於人工智慧領域的一個分支。它從一堆資料中推斷,

然後再理解後做事,掌握的資料越多,機器推薦地越準確。相當於自己給自己程式設計。

在這裡,我們程式師們充當了小神靈(創造演算法並將其編碼的人),創建創意不同的世界。

頭條們如何做推薦

說到機器演算法,智慧推薦,都會提到今日頭條或一點資訊這些內容產品。

今日頭條是主要基於移動互聯網(手機用戶端)的產品,當然也有Web(PC端)。

內容強調更新快,強調推送,而非傳統的展示或刷新,提供的內容更“精准”,做到千人千面和資訊時效性。

它的內容推送完全基於機器演算法,減少小編人為干預,不斷訓練和提高自己,並獲得內容變現和成本上的好處。

移動互聯網為今日頭條的興起提供了紅利,手機現在和用戶如影隨形,這就產生了大量碎片化的富餘時間,同時手機的便利性也為時效性的競爭提供了空間,可以重新定義使用者價值,於是資訊流的內容提供模式有了用武之地,而在PC端,用戶的時間和便利性受到的壓縮,使得資訊流的價值難以體現出來。

頭條的推薦機制

第一次安裝了今日頭條,你打開APP時,它會記住使用者手機的作業系統,版本,螢幕,遍歷使用者安裝的App,流覽器的Cookie、我的最愛,用戶端網路,LBS位址如北京市海澱區等資訊,這樣在使用者未登錄的情況下,能夠通過這些基本的Profile做一個基礎畫像。

餘下的,頭條根據我們的閱讀文章的分類,喜好興趣,閱讀時長,發表評論等維度進行更清晰的畫像,然後推薦給我們。

有一個非常現實的例子。你有一個非常喜歡的妹子,你每天盼著和她聊天,每次聊天,有時候很好,這時候你想約她出來。但是如果遭到拒絕,你又很難過。又到週五時,你拿著手機考慮要不要給她電話,隱約記得上次你問過她,被她拒絕了。可是明明的兩回她是答應的,前一次又拒絕了呢?是不是她不想出門,還是她喜歡小黑屋,不喜歡泡吧?喜歡吃包子,不喜歡吃披薩?你百思不得其姐,細思恐極。

於是你先放下天天拿著的手機,默默地做了個下麵類似機器演算法的表格:

那麼,我們試圖從此表格中來找尋規律。

但是很明顯,有時候約會和自己的發現這狀態有關,還有的時候取決於她的情緒,明明天氣很好,但是她的脾氣卻很壞,還有每次兩個人說的話都不會重樣,這樣一來,機器演算法也無法預測答案,因此,這樣的場景就不適合用大資料和機器演算法,它適合於規律和標準化的資料。

但是它能總能給我們一些啟示,特別是一些糊裡糊塗,天天就知道寫代碼的人——就像我這樣的,拖延狂還有碼農綜合症,忘記生活,需要有大資料來嚴重介入。

不知道愚人節大家被騙了幾回,反正我中午吃了一頓烤饢。

提供的內容更“精准”,做到千人千面和資訊時效性。

它的內容推送完全基於機器演算法,減少小編人為干預,不斷訓練和提高自己,並獲得內容變現和成本上的好處。

移動互聯網為今日頭條的興起提供了紅利,手機現在和用戶如影隨形,這就產生了大量碎片化的富餘時間,同時手機的便利性也為時效性的競爭提供了空間,可以重新定義使用者價值,於是資訊流的內容提供模式有了用武之地,而在PC端,用戶的時間和便利性受到的壓縮,使得資訊流的價值難以體現出來。

頭條的推薦機制

第一次安裝了今日頭條,你打開APP時,它會記住使用者手機的作業系統,版本,螢幕,遍歷使用者安裝的App,流覽器的Cookie、我的最愛,用戶端網路,LBS位址如北京市海澱區等資訊,這樣在使用者未登錄的情況下,能夠通過這些基本的Profile做一個基礎畫像。

餘下的,頭條根據我們的閱讀文章的分類,喜好興趣,閱讀時長,發表評論等維度進行更清晰的畫像,然後推薦給我們。

有一個非常現實的例子。你有一個非常喜歡的妹子,你每天盼著和她聊天,每次聊天,有時候很好,這時候你想約她出來。但是如果遭到拒絕,你又很難過。又到週五時,你拿著手機考慮要不要給她電話,隱約記得上次你問過她,被她拒絕了。可是明明的兩回她是答應的,前一次又拒絕了呢?是不是她不想出門,還是她喜歡小黑屋,不喜歡泡吧?喜歡吃包子,不喜歡吃披薩?你百思不得其姐,細思恐極。

於是你先放下天天拿著的手機,默默地做了個下麵類似機器演算法的表格:

那麼,我們試圖從此表格中來找尋規律。

但是很明顯,有時候約會和自己的發現這狀態有關,還有的時候取決於她的情緒,明明天氣很好,但是她的脾氣卻很壞,還有每次兩個人說的話都不會重樣,這樣一來,機器演算法也無法預測答案,因此,這樣的場景就不適合用大資料和機器演算法,它適合於規律和標準化的資料。

但是它能總能給我們一些啟示,特別是一些糊裡糊塗,天天就知道寫代碼的人——就像我這樣的,拖延狂還有碼農綜合症,忘記生活,需要有大資料來嚴重介入。

不知道愚人節大家被騙了幾回,反正我中午吃了一頓烤饢。