華文網

“大資料應用場景”之隔壁老王(連載二)

大家的好朋友,我們的好鄰居老王時隔一周第二次閃亮登場了!!!!上次給大家講到老王通過小編公司爬蟲的幫助找到了合適的合作夥伴,之後生意一直風生水起,但是老王並不滿足於現狀。

當他聽說可口可樂通過大資料分析出櫻桃味的可樂,並在全世界推出之後,心裡一陣竊喜。他的辣條廠想要推出新口味的辣條,請小編幫他分析一下。

第一步:打開爬蟲

第二步:把垃圾資訊塞到分類器中去

但是老王需要的卻只是關於這四類食品大眾喜歡的口味,

這些垃圾資訊沒有説明,反而會增加系統的負擔。因此需要對這類文本給出垃圾標識。那麼怎麼來判定是否為垃圾文本呢,小編在分類器裡輸入了垃圾文本的特徵詞,如果言論文本屬於垃圾文本,則給出垃圾標識。

通過上述步驟,老王在小編的幫助下通過分類器篩選出了全部有關於正餐、小吃、零食、泡面的口味評價。

第三步:把有效資訊塞到分類器中去

接著,小編要開始對這些資訊進行分類了,也就是說使用前嗅的分類器根據言論的類型,自動對得到的文本打上對應的標籤,分到所在的類別裡。其中,言論的類別是根據提供的類型確定的,分類器是採用機器學習的方法從大規模標注資料中訓練得到的。對於一個輸入的言論文本,由N個訓練好的分類器分別判斷言論是否屬於該類別,如泡面的紅燒牛肉味、老壇酸菜味等。

如果言論文本屬於該類別,則給言論打上對應的標籤。

通過上述步驟,老王在小編的幫助下通過分類器,將全部有效資訊,按照正餐、小吃、零食、泡面的各個口味,進行了精確的分類。

第四步:判斷想吃/不想吃

第五步:關上分類器

把分類器的結果關聯到ForeAna資料分析引擎中,就自動得出了視覺化圖表。

老王拿著結果興高采烈的跑到了工廠,工人們對這個結果表示十動然拒,並以罷工要脅,如果要出這些口味的辣條,他們就跳槽到某龍辣條廠。。。

下期預告:老王夢想破碎後,乖乖的開始預測明年銷量了。

。。