您的位置:首頁>科技>正文

PaperWeekly|你的Emoji不一定是我的Emoji

田葉

法國國家科學研究中心 (CNRS)

巴黎七大語言學實驗室

德國比勒菲爾德大學

人工智慧實驗室聯合專案博士後研究員

研究方向為對話語義學和多模態對話系統

前言

有這樣一群簡單的小圖片, 每天在全世界幾十億人的手機和電腦螢幕上傳過來傳過去, 傳遞著微妙的情感, 潤滑著我們的交際, 定義著新的人際交流模式。 這群看著不起眼實則大有作為的小圖片們就是—Emoji(表情符號)。

一點點歷史

說到表情符, 很多人都會先想到用標點符號表示的笑臉 :-) 它誕生於1982年。 在那個我們大多數人還在用紙筆交流(或者還沒出生)的時候,

卡內基梅隆大學的一群電腦科學家們就已經頻繁的使用電子郵件交流工作或者互相調侃。 他們發現, 由於電子郵件缺少面對面交流時的肢體語言, 面部表情和語音語調, 很多時候玩笑被當成了正兒八經的話。 於是這群科學家們就決定發明一種標記符號來彌補這個缺陷。

Scott Fahlman 首次在電子郵件中(Fahlman, 2012)使用表情符號(emoticon)。 他用 “:-)” 表示某一句話是開玩笑的, 用 “:-(” 表示某一句話是嚴肅的。 不過很快, 大家就開始用 “:-(” 來表示傷心或煩惱。

九十年代末, 日本一家叫 NTT DOCOMO 的電信公司為了在年輕的 BP 機市場中脫穎而出, 開發了 176 個基於漫畫和日文漢字的圖片表情符號, emo-ji(絵-文字)從此誕生, 並在年輕人中迅速流行開來。

2007年,

蘋果手機推出第一代 iPhone, 智慧手機開始逐漸火爆。 蘋果和穀歌覺得, 要想搶佔亞洲的智慧手機市場份額, 他們的系統必須支援表情符號, 於是蘋果和安卓系統開始支援 Emoji, 但是西方的年輕也發現 Emoji 很好玩, 表情符號開始席捲全球。

2010 年統一碼協會 Unicode 開始編碼 Emoji, 截至 2017 年 Unicode Emoji Data v4.0有 2389 個 Emoji。 國內社交平臺除了支援 Unicode 編碼中的 Emoji 以外也有很多自己獨特的表情符號, 顏文字和 GIF 圖表情。 Emoji 頻頻成為新聞焦點, 2015 年, 牛津英語辭典將 Emoji 選為年度新詞(word of the year)。

2016 年, 索尼影視娛樂(Sony Pictures)宣佈將拍攝電影“Emoji動畫”(the Emoji Movie, 圖1)。 以 Emoji 為主體的音樂劇“Emojiland”也將在洛杉磯上演。

Figure 1 電影 The Emoji Movie 海報

Emoji 資料一覽

一掃 Emoji 的資料我們便可以發現, Emoji出現地非常頻繁, 但是它們的使用在不同語言文化背景下, 不同年齡和社會群體中,

甚至在不同手機系統中的用法都不一樣。 我們更多地使用開心, 搞笑和表達愛意的 Emoji, 不常使用憤怒悲傷的 Emoji(或者說, 當我們真正非常憤怒和悲傷的時候, 我們很少使用 Emoji)。 Emoji經常不表達人的情感, 而是用來維持友誼, 表達禮貌。 新的 Emoji 天天出現, 新的用法也天天演變。 下面我們來看看 Emoji 幾個有意思的資料。

Emoji, 天天見

在社交網路和手機通訊中, 表情符號無處不在。 表情符號不僅包括面部表情和手勢(比如笑臉, 哭臉, 眨眼, 吐舌, OK 手勢, 中指, 拍手), 還包括常見物品(比如車輛, 房屋, 動物, 植物, 食物), 動作行為(比如跳舞, 各類運動), 和抽象概念(比如社會關係, 國旗, 時間, 金錢)。 Instagram 的調查顯示(圖 2), 截至 2015 年四月, Instagram 上有 40% 的資訊含有表情符號。 在一些國家(比如芬蘭和法國),

這個比例超過 50%。

Figure 2 Emoji 使用頻率變化 - Instagram

我們為什麼這麼熱衷使用表情符號呢?這是因為表情符號彌補了書面表達相比起面對面交流的缺失。 在面對面的交流中, 有很大比例的語義是通過語言以外的管道傳達的, 比如語音語調, 面部表情和肢體語言。

傳統的書寫中沒有這些非語言成分, 因此書寫交流給人的社會臨場感(social presence)很低, 導致表情, 態度和個性等資訊交流困難。 當我們大量的交流在網上進行時, 我們需要增強交流的臨場感, 而表情符號正可以用來替代面對面交流中很多非語言成分的作用。

你的 Emoji 不一定是我的 Emoji

就像漢字有各種不同字體, Emoji 也在不同系統中長得不一樣。 對於文字來說, 字體不能改變意思, 但是由於 Emoji 是對實物的類比, 不同的 Emoji 字體很可能會引起誤解。 比如, 眥牙笑的 Emoji 在谷歌安桌系統中(下圖最右邊的表情符號)就看起來比在 iPhone 上(下圖最左邊的表情符號)看起來開心的多。 圖 3 顯示了人們對同一個 Emoji 在不同系統中的呈現的感情評分。 大家覺得這個 Emoji 在 iPhone 上表達了略負面的感情, 但是在穀歌系統中非常正面非常開心。

Figure 3 人們對不同系統中呲牙笑表情符號的情感評分不同

這個問題使得不同系統使用者互相交流的時候可能會出現誤解。在下面這個對話中,一個安桌用戶(左圖)和一個 iPhone 用戶(右圖)聊天。安桌用戶說“剛從約會回來。[笑臉]”,這個笑臉在他的手機上看起來很開心,但是在iphone上卻變成了眥牙笑,於是他的iphone朋友同情的說,“哎呀,看來約會不成功啊。。。等著你講故事啊”,安桌用戶於是莫名其妙…

Figure 4 安卓用戶和 iPhone 用戶因為 Emoji 呈現不一樣而產生誤解

多笑臉,少哭臉

我們用正面感情的 Emoji 遠遠多於負面感情的 Emoji。Emojitracker.com 網站即時監控推特網上的 Emoji 使用,目前資料顯示最常用前五位元表情符號都是用來表達正面感情的。排名第一的笑哭臉“是第二常用的表情符(心型)的兩倍多。大家要是好奇這些 Emoji 都用在什麼語境中,可以點擊某個具體的 Emoji,看推特即時資料(筆者覺得這個網站很有意思,在上面浪費了兩個小時)。

Figure 5 推特 Emoji 詞頻-資料來源於 emojitracker.com 201-03-09

Novak et al.(2015) 在 PLOS ONE 上發表了他們對歐洲十三個國家推特 Emoji 情感表達的研究。在他們的資料中,5%的推特評論中含有 Emoji。表達正面情感的表情符號比表達負面情感的符號更常用。下圖顯示 Novaket al. 調查中頻繁的 Emoji 和它們的感情極性。綠色是正面,紅色是負面。這一片綠的資料表明絕大多數常見的 Emoji 是表達正面情感的。

Figure 6 Novak et al. 推特 Emoji 情感分佈,綠色為正面,紅色為負面

筆者自己也做了個調查。我搜集了 Facebook 在美,英,法,德四國的新聞媒體公共帳號下八百萬條評論,其中 6%有 Emoji。和以上 Novak et al. 的資料不同的是,我們資料中“笑哭臉” 並不常見。這其中最頻繁的是大拇指,心型眼鏡,鼓掌和愛心。雖然前十名中也有四個表達負面情感的 Emoji:排第 5 的憤怒,第 7,8 和 9 的大哭,淚水和驚恐,但是更多的 Emoji 還是表達正面情感。我們資料和推特資料不同主要是因為我們的資料來源於讀者對新聞的評論,因此會有很多表示意見和看法的 emoji。

Figure 7 臉書媒體公共頁面中表情符號的分佈- 資料獲取於 2016 年 8,9 月

為什麼我們很少用負面的 Emoji 呢?可能的原因有兩個:1. 人們在社交網路中表達正面情感更多;2. 人們在表達負面情感的時候很少用表情符號。原因 1 也許是成立的,但是這個因素很難完全解釋正負面表情符號差距之大。更有可能的情況是原因 2:我們在表達負面情感的時候很少用表情符號。表情符號的使用(不管是什麼表情符號)都會在某種程度上減弱語氣的強硬程度。試想一下,如果你對某個服務非常不滿意,在和一個客服吵架,你會頻繁的使用表情符號嗎?這個觀點也被 Tyler Schnoebelen 的研究印證。Schnoebelen 的博士研究的就是社交網路中表情符號的使用。他發現,當 “fuck you” (呃怎麼翻譯呢?不懂的童鞋自己百度吧)出現的時候,表情符號很少出現,因為表情符號會減弱憤恨,厭惡的情緒的表達程度。

Emoji 和人工智慧

Emoji 鋪天蓋地的流行當然引起了計算語言和 NLP 屆的關注。最常見的分析就是把Emoji 當作單詞一樣來分析,採用概率語言模型、深度學習模型的低維實向量話來分析 Emoji 語義之間的關係,比如在下圖的向量視覺化中(http://getdango.com/emoji-and-deep-learning/),含義相似的 Emoji 聚集在一起。面部表情大都聚集在下方,國旗聚集在左上角。把含有 Emoji 的語句用迴圈神經網路(RNN)表示出來使得我們可以根據新的語句在預測合適的 Emoji。這個 Emoji 推薦 app 使用的就是就是這個技術:http://getdango.com/emoji-and-deep-learning/。

用迴圈神經網來為含有表情符號的語句建模雖然可以預測表情符號的出現,但是這並不能使機器理解我們所表達的含義。從語言中分析情感一直是自然語言理解(Natural Language Understanding)的一個重要課題。傳統的做法是為每一個語言建立情感詞庫,然後根據情感詞的詞頻來預測語用者的情感。比如,當我們在一句話中找到“開心” 這個詞的時候,我們可以有一些信心推測這句話表達了正面的感情。這種通過情感詞語分析情感的做法意味著每個語言需要有自己的情感語言詞庫。可是,表情符號常常是居於面部表情的。如果全世界的人都使用表情符號來表達情感,我們豈不是可以跨國語言障礙,通過分析表情符號直接理解情感?可能嗎?

沒有那麼簡單。有很多自然語言處理對 Emoji 的研究建立在這樣一個假設上:Emoji 和語言之間沒有語義交互。我們可以通過把 Emoji 看作是一種情感標注(例如 Davidovet al. 2010; Ganster et al. 2012)或者是當作情感分析的一個特徵(例如 Zhao et al. 2012。這些研究發現,雖然加入 Emoji 可以改善情感分析的精確度,但是正確率還是較低,正面 Emoji 對情感的預測尤其低。為什麼?因為表情符號和語言是有語義上的交互的。同樣的語句配上不同的表情符號可以有不同的理解。比如,下面這個句子,在(1)中的理解是一個請求,說話人的情緒是中性或者偏負面,而(2)表達的是說話人覺得對方做的事很好笑,表達了正面的情緒。

1. 你能不能不要這樣子?

2. 你能不能不要這樣子?

很多時候我們不是用表情符號來直接表達情感,而是用它們來表示禮貌,或者用來標注幽默,反義和諷刺的態度。比如,我們會在請求的時候加上笑臉,但是笑臉並不表達我們很開心, 比如(3)。我們可能在表達負面情緒的時候用正面的 Emoji,不如(4)。

3. 你要是去超市能不能幫我帶一瓶可樂?謝謝啦!

4. 今天聽了川普的演講,我崩潰了。

Figure 8 Facebook 臉書中六種反應(Reaction)

如果這個情感反應體現了讀者宏觀的情感,我們可以看看在不同的情感下大家會用什麼表情符號。我收集了五千八百萬個反應,用 K-means 演算法集群,發現大家的反應主要有四類(圖9),第一類中,絕大多數的反應是點贊;第二類有不少點贊,但是也有不少哈哈和不少憤怒;第三類以憤怒為主,第四類以傷心為主。在這四種不同的反應中表情符號的分佈是不是不同呢?確實(圖10)。在第一第二類反應中,最常見的表情符號大都是正面(除了第二類中反應中常見的驚恐 Emoji)。在第四類傷心的情感反應中,常見的表情符號都是負面的。有意思的是,在第三類以憤怒為主的反應中,前五個常見表情符中有三個是正面的:大拇指,鼓掌和眨眼笑。這說明當我們在傷心的時候很少使用正面的表情符(來諷刺或者表達反義),但當我們生氣地時候卻經常使用反諷的表情符。這個結果也印證了我們的觀點:表情符並不簡單的表達情感。它們和語言有著複雜的語義交互。要想使機器真正理解我們用表情符號表達的含義,我們必須能夠自動準確的分析表情符和語言之間的交互。這是目前 Emoji 帶給自然語言理解的挑戰。

Figure 9 臉書“反應”(Reactions)集群

Figure 10 臉書不同情感反應中不同的表情符號分佈

Emoji 的未來

像很多互聯網時代的產物一樣,Emoji 從開始被大眾使用到現在鋪天蓋地只用了不到十年的時間。在這段時間裡,Emoji 改變了我們交流的方式,重新定義了網路書寫語言的規則。表情符號並不簡簡單單的表示感情,而是微妙的影響著語義和交互的體驗。只有當我們真正理解了 Emoji 和語言的交互,才能打造能夠自然使用 Emoji 的聊天機器人,才能讓真正讓人工智慧理解數字時代的我們。

參考文獻

Davidov, D., Tsur,O., & Rappoport, A. (2010, August). Enhanced sentiment learning usingtwitter hashtags and smileys. In Proceedingsof the 23rd international conference on computational linguistics: posters (pp. 241-249). Association forComputational Linguistics.

Ganster, T., Eimler,S. C., & Krämer, N. C. (2012). Same same but different!? The differentialinfluence of smilies and emoticons on person perception. Cyberpsychology, Behavior, andSocial Networking, 15(4),226-230.

Kralj Novak, P.,Smailović, J., Sluban, B., Mozetič, I., Liu, B., Liu, B., … Good, I. (2015).Sentiment of Emojis. PLOS ONE, 10(12), e0144296. https://doi.org/10.1371/journal.pone.0144296

Tian, Y., Galery,T., Dulcinati, G., Molimpakis, E., & Sun, C. (2017). Facebook emotions:Reactions and Emojis. In Proceedings of the EACL 2017 Workshop on NaturalLanguage Processing for Social Media (SocialNLP).

Zhao, J., Dong, L., Wu, J., & Xu, K.(2012). MoodLens: An Emoticon-Based Sentiment Analysis System for ChineseTweets. Proceedings of the 18th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining - KDD ’12, 1528–1531. https://doi.org/10.1145/2339530.2339772

但是在穀歌系統中非常正面非常開心。

Figure 3 人們對不同系統中呲牙笑表情符號的情感評分不同

這個問題使得不同系統使用者互相交流的時候可能會出現誤解。在下面這個對話中,一個安桌用戶(左圖)和一個 iPhone 用戶(右圖)聊天。安桌用戶說“剛從約會回來。[笑臉]”,這個笑臉在他的手機上看起來很開心,但是在iphone上卻變成了眥牙笑,於是他的iphone朋友同情的說,“哎呀,看來約會不成功啊。。。等著你講故事啊”,安桌用戶於是莫名其妙…

Figure 4 安卓用戶和 iPhone 用戶因為 Emoji 呈現不一樣而產生誤解

多笑臉,少哭臉

我們用正面感情的 Emoji 遠遠多於負面感情的 Emoji。Emojitracker.com 網站即時監控推特網上的 Emoji 使用,目前資料顯示最常用前五位元表情符號都是用來表達正面感情的。排名第一的笑哭臉“是第二常用的表情符(心型)的兩倍多。大家要是好奇這些 Emoji 都用在什麼語境中,可以點擊某個具體的 Emoji,看推特即時資料(筆者覺得這個網站很有意思,在上面浪費了兩個小時)。

Figure 5 推特 Emoji 詞頻-資料來源於 emojitracker.com 201-03-09

Novak et al.(2015) 在 PLOS ONE 上發表了他們對歐洲十三個國家推特 Emoji 情感表達的研究。在他們的資料中,5%的推特評論中含有 Emoji。表達正面情感的表情符號比表達負面情感的符號更常用。下圖顯示 Novaket al. 調查中頻繁的 Emoji 和它們的感情極性。綠色是正面,紅色是負面。這一片綠的資料表明絕大多數常見的 Emoji 是表達正面情感的。

Figure 6 Novak et al. 推特 Emoji 情感分佈,綠色為正面,紅色為負面

筆者自己也做了個調查。我搜集了 Facebook 在美,英,法,德四國的新聞媒體公共帳號下八百萬條評論,其中 6%有 Emoji。和以上 Novak et al. 的資料不同的是,我們資料中“笑哭臉” 並不常見。這其中最頻繁的是大拇指,心型眼鏡,鼓掌和愛心。雖然前十名中也有四個表達負面情感的 Emoji:排第 5 的憤怒,第 7,8 和 9 的大哭,淚水和驚恐,但是更多的 Emoji 還是表達正面情感。我們資料和推特資料不同主要是因為我們的資料來源於讀者對新聞的評論,因此會有很多表示意見和看法的 emoji。

Figure 7 臉書媒體公共頁面中表情符號的分佈- 資料獲取於 2016 年 8,9 月

為什麼我們很少用負面的 Emoji 呢?可能的原因有兩個:1. 人們在社交網路中表達正面情感更多;2. 人們在表達負面情感的時候很少用表情符號。原因 1 也許是成立的,但是這個因素很難完全解釋正負面表情符號差距之大。更有可能的情況是原因 2:我們在表達負面情感的時候很少用表情符號。表情符號的使用(不管是什麼表情符號)都會在某種程度上減弱語氣的強硬程度。試想一下,如果你對某個服務非常不滿意,在和一個客服吵架,你會頻繁的使用表情符號嗎?這個觀點也被 Tyler Schnoebelen 的研究印證。Schnoebelen 的博士研究的就是社交網路中表情符號的使用。他發現,當 “fuck you” (呃怎麼翻譯呢?不懂的童鞋自己百度吧)出現的時候,表情符號很少出現,因為表情符號會減弱憤恨,厭惡的情緒的表達程度。

Emoji 和人工智慧

Emoji 鋪天蓋地的流行當然引起了計算語言和 NLP 屆的關注。最常見的分析就是把Emoji 當作單詞一樣來分析,採用概率語言模型、深度學習模型的低維實向量話來分析 Emoji 語義之間的關係,比如在下圖的向量視覺化中(http://getdango.com/emoji-and-deep-learning/),含義相似的 Emoji 聚集在一起。面部表情大都聚集在下方,國旗聚集在左上角。把含有 Emoji 的語句用迴圈神經網路(RNN)表示出來使得我們可以根據新的語句在預測合適的 Emoji。這個 Emoji 推薦 app 使用的就是就是這個技術:http://getdango.com/emoji-and-deep-learning/。

用迴圈神經網來為含有表情符號的語句建模雖然可以預測表情符號的出現,但是這並不能使機器理解我們所表達的含義。從語言中分析情感一直是自然語言理解(Natural Language Understanding)的一個重要課題。傳統的做法是為每一個語言建立情感詞庫,然後根據情感詞的詞頻來預測語用者的情感。比如,當我們在一句話中找到“開心” 這個詞的時候,我們可以有一些信心推測這句話表達了正面的感情。這種通過情感詞語分析情感的做法意味著每個語言需要有自己的情感語言詞庫。可是,表情符號常常是居於面部表情的。如果全世界的人都使用表情符號來表達情感,我們豈不是可以跨國語言障礙,通過分析表情符號直接理解情感?可能嗎?

沒有那麼簡單。有很多自然語言處理對 Emoji 的研究建立在這樣一個假設上:Emoji 和語言之間沒有語義交互。我們可以通過把 Emoji 看作是一種情感標注(例如 Davidovet al. 2010; Ganster et al. 2012)或者是當作情感分析的一個特徵(例如 Zhao et al. 2012。這些研究發現,雖然加入 Emoji 可以改善情感分析的精確度,但是正確率還是較低,正面 Emoji 對情感的預測尤其低。為什麼?因為表情符號和語言是有語義上的交互的。同樣的語句配上不同的表情符號可以有不同的理解。比如,下面這個句子,在(1)中的理解是一個請求,說話人的情緒是中性或者偏負面,而(2)表達的是說話人覺得對方做的事很好笑,表達了正面的情緒。

1. 你能不能不要這樣子?

2. 你能不能不要這樣子?

很多時候我們不是用表情符號來直接表達情感,而是用它們來表示禮貌,或者用來標注幽默,反義和諷刺的態度。比如,我們會在請求的時候加上笑臉,但是笑臉並不表達我們很開心, 比如(3)。我們可能在表達負面情緒的時候用正面的 Emoji,不如(4)。

3. 你要是去超市能不能幫我帶一瓶可樂?謝謝啦!

4. 今天聽了川普的演講,我崩潰了。

Figure 8 Facebook 臉書中六種反應(Reaction)

如果這個情感反應體現了讀者宏觀的情感,我們可以看看在不同的情感下大家會用什麼表情符號。我收集了五千八百萬個反應,用 K-means 演算法集群,發現大家的反應主要有四類(圖9),第一類中,絕大多數的反應是點贊;第二類有不少點贊,但是也有不少哈哈和不少憤怒;第三類以憤怒為主,第四類以傷心為主。在這四種不同的反應中表情符號的分佈是不是不同呢?確實(圖10)。在第一第二類反應中,最常見的表情符號大都是正面(除了第二類中反應中常見的驚恐 Emoji)。在第四類傷心的情感反應中,常見的表情符號都是負面的。有意思的是,在第三類以憤怒為主的反應中,前五個常見表情符中有三個是正面的:大拇指,鼓掌和眨眼笑。這說明當我們在傷心的時候很少使用正面的表情符(來諷刺或者表達反義),但當我們生氣地時候卻經常使用反諷的表情符。這個結果也印證了我們的觀點:表情符並不簡單的表達情感。它們和語言有著複雜的語義交互。要想使機器真正理解我們用表情符號表達的含義,我們必須能夠自動準確的分析表情符和語言之間的交互。這是目前 Emoji 帶給自然語言理解的挑戰。

Figure 9 臉書“反應”(Reactions)集群

Figure 10 臉書不同情感反應中不同的表情符號分佈

Emoji 的未來

像很多互聯網時代的產物一樣,Emoji 從開始被大眾使用到現在鋪天蓋地只用了不到十年的時間。在這段時間裡,Emoji 改變了我們交流的方式,重新定義了網路書寫語言的規則。表情符號並不簡簡單單的表示感情,而是微妙的影響著語義和交互的體驗。只有當我們真正理解了 Emoji 和語言的交互,才能打造能夠自然使用 Emoji 的聊天機器人,才能讓真正讓人工智慧理解數字時代的我們。

參考文獻

Davidov, D., Tsur,O., & Rappoport, A. (2010, August). Enhanced sentiment learning usingtwitter hashtags and smileys. In Proceedingsof the 23rd international conference on computational linguistics: posters (pp. 241-249). Association forComputational Linguistics.

Ganster, T., Eimler,S. C., & Krämer, N. C. (2012). Same same but different!? The differentialinfluence of smilies and emoticons on person perception. Cyberpsychology, Behavior, andSocial Networking, 15(4),226-230.

Kralj Novak, P.,Smailović, J., Sluban, B., Mozetič, I., Liu, B., Liu, B., … Good, I. (2015).Sentiment of Emojis. PLOS ONE, 10(12), e0144296. https://doi.org/10.1371/journal.pone.0144296

Tian, Y., Galery,T., Dulcinati, G., Molimpakis, E., & Sun, C. (2017). Facebook emotions:Reactions and Emojis. In Proceedings of the EACL 2017 Workshop on NaturalLanguage Processing for Social Media (SocialNLP).

Zhao, J., Dong, L., Wu, J., & Xu, K.(2012). MoodLens: An Emoticon-Based Sentiment Analysis System for ChineseTweets. Proceedings of the 18th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining - KDD ’12, 1528–1531. https://doi.org/10.1145/2339530.2339772

Next Article
喜欢就按个赞吧!!!
点击关闭提示