您的位置:首頁>文化>正文

觀點|文學是大資料面臨的最後挑戰?

選自:經濟學人

參與:黃小天

幾十年裡, 文學統計分析從當初的怪誕理論變成了當今的前沿研究。

苦嚼著數字的文學批評在 Tom Stoppard 的神秘劇作 Arcadia 中變成了學術小圈子裡的一個大笑話。

Bernard Nightingale, 一個浮華的詩歌教師, 嘲笑其同事用電腦程式設計一個匿名故事並署名 D.H. Lawrence。 對於 Bernard 的不可思議的歡愉, 他發現在相同的統計前提下, Lawrence 同樣會寫 ust William 和早期作品 Brighton 與 Hove Argus 的概率為 90%。 有了數學統計的分析, Stoppard 的劇作似乎不再荒誕。 隨著新牛津版莎士比亞全集的出版, 他們已經知曉了英國伊莉莎白時代輝煌劇作的歸屬作者。

莎翁全集的新版本成了上個 10 月的頭條新聞, 該全集確認了 44 本莎士比亞劇作之中有 17 本是其與他人合著(相比之下, 1986 年版的全集之中僅有 8 本標明是合著)。 新發現的最激動人心的合著作者是 Christopher Marlowe, 他的出現證明以前被斥為陰謀論的作家身份理論是言之有理的。 然而, 真正令人稱奇的還是用來確認 Marlowe 合著作者身份的電腦分析技術,

而不再是傳統的編輯學見解。 因此, 今天的資料語言學家是如何分辨誰寫了什麼, 而不受作者影響力的困擾?以及更重要的是, 為什麼這種分辨至關重要?

電腦和人可以通過 gentle、answer、beseech 和 tonight 等常用 plus-words 確認莎士比亞的文風。 儘管這種方法不很準確, 尤其是在伊莉莎白戲劇時代劇作者之間相互借鑒風格司空見慣。 早期的現代劇作家之間密切相聯, 並且創作在 16 世紀的聽眾看來並不重要。 Christopher Marlowe 家喻戶曉的劇作「Tamburlaine」被爭先恐後地模仿續寫以至於另一個劇作家 Ben Jonson 對此悲哀不已。 莎士比亞也如同其他人一樣深感內疚。 在 Marlowe 的劇作 The Jew of Malta (1589) 中, Barabas 監視陽臺上的女兒:

看, 遠處東方的天空那顆星在閃爍?

我生命中的北極星, 如果是 Abigail!

如果這種語調似曾相識, 那是因為 10 年之後莎士比亞在《羅密歐與茱麗葉》中對此作了仿寫:

什麼光線輕輕地從那邊的窗戶穿了進來?

是東方升起的太陽, 是茱麗葉

正是這種相互影響掩蓋了歷史真相, 那麼電腦是如何分辨 Marlowe 和 Shakespeare 以及兩者的手跡呢?根據新牛津出版社的編輯所言, 答案的關鍵在於功能詞(function words)。 這是些像 to 或 a 之類的詞, 支撐起了句子的語法結構。 這個理論認為, 每個作者都無意識地以獨特的方式使用著這些詞。 例如, 莎士比亞經常把 and 和 with 並用——Claudius 與 Gertrude 結了婚「With mirth in funeral and with dirge in marriage」, Old Hamlet 的鬼魂「Appears before them, and with solemn march / Goes slow and stately」。 結果, 我們可以根據功能詞找到一個劇作的真實作者。 通過分析作者如何使用功能詞, 電腦可以清晰識別出每一個作者獨有的文風。

在莎士比亞的例子中, 知道誰在什麼時候寫了什麼很重要, 因為這會使人們對莎士比亞例外主義(該理論認為莎士比亞是一個遺世獨立的怪才)有一個更加正確的認識。 在過去, 那些被認定是莎士比亞與他人合寫的劇作多是由於劇作品質欠佳。 例如, 劇作家 George Peele 和 Robert Nashe 就被指責運用沉悶的典故拉低了 Henry VI, Part I 的檔次。 相似地, 承認 All』s Well That Ends Well 中一個特別章節是出自 Thomas Middleton 之手, 也就證明了莎士比亞同時期劇作家的水準並非與其那麼不相稱。 即使電腦模型並非萬無一失, 這種基於資料而非劇作品質的嘗試還是受歡迎的。

第二, 這種正確的歸屬工作加深了我們對劇作本身的理解。 當劇作在初期奠定地位之後, 繼而越加穩定, 代表著歷史之中的一個章節。

假設 Henry VI, Part II 絕大部分為 Marlowe 所寫, 就會破壞著作的統一性。 相比于無所不能的君主, Marlowe 似乎對普通人(比如卑賤的煽動者 Jack Cade)的描寫更有興趣;莎士比亞更喜歡君王殞命的宏偉故事。 但是知道了這些劇作家之間錯綜複雜卻又共生共存的關係, 有助於我們更好地理解劇作本身。

根據新牛津版莎翁全集的編輯 Gabriel Egan 所言, 這種統計分析模型變得更加精確, 部分原因是越來越多的電腦專家轉向了語言學問題, 這是電腦面臨的最困難問題之一。 Bernard Nightingale 堅稱, 你不可能把拜倫的頭掛在你的筆記型電腦上, 統計分析對此又作何處理?目前來看, Bernard 很可能是對的。 在一個可控的測試上, 即使最先進的統計模型也找錯了劇作作者。 目前來看, 統計分析仍然是一個有效的編輯工具。 不管怎樣,它代表了一種學術客觀性,以前這很少出現在莎士比亞研究的領域內。可以確定,這會是一個文學家和數學家都會接受的想法。

不管怎樣,它代表了一種學術客觀性,以前這很少出現在莎士比亞研究的領域內。可以確定,這會是一個文學家和數學家都會接受的想法。

Next Article
喜欢就按个赞吧!!!
点击关闭提示