白建軍｜法律大資料時代裁判預測的可能與限度

文 | 白建軍，北京大學法學院教授、博士生導師

來源 | 探索與爭鳴雜誌，本文原載《探索與爭鳴》2017年第10期

裁判預測是基於法律規定及大量以往案件資訊與法律後果之間關係的科學分析，對未決案件法律後果的一種或然性推測。大資料、人工智慧的加入，使真正意義上的裁判預測成為可能。但是，法律上的裁判預測畢竟有其特殊性。真正讓人擔心的並非人工智慧取代律師、法官的職業。目前絕大多數法律大資料研究的主要資料來源是公開的裁判文書，而對案件處理具有顯著影響的因素未必都寫進判決書。

即使實現了海量案例的大海撈針，裁判文書中有些有效資訊還是沒得到充分利用，部分法律大資料研究仍難免小樣本思維的危險。據此，大資料、人工智慧與法律合作的科學基礎以及裁判預測的根據，應是各種意義上法律資訊、司法規律、司法人員集體經驗的深度實證分析。

什麼是裁判的可預測性

具有一定可預測性的司法裁判不一定是公正的，但毫無可預測性的司法裁判一定是不公正的。其實，法律規定本身就是一種行為後果的預測，法治的一個標誌性屬性，就是司法裁判的穩定性、可預測性。而在人治社會中，也可以有海量法律條文，也會有精緻的法學，但人們還是無法預知自己行為可能導致的法律後果。理論上，司法裁判的可預測性所反映的是法律適用的確定性問題。

對此，學界有兩種理論傾向。德沃金的“唯一正解”說，可以被視為強調法律確定性的代表。在德沃金看來，法律是一張無縫之網，總有正確的答案存在於其中。與此不同，一些學者更多注意到法律運行中實際存在各種不確定性，

強調關注這些不確定性的重要意義。不論是強調“唯一正解”還是看重實際上的不確定性，兩種理論其實並不矛盾。它們都認為法律應當是確定的，只是因為實際上存在各種不確定性，才有了各自的關注重點。

所以，美國大法官卡多佐認為，法律發展的邏輯不是尋求“確定性”，而是尋求一種“可能性”。既然如此，真正的問題便應該是法律確定性的程度問題，即法在多大程度上實現了對社會的規範。

沿著這個思路，所謂司法裁判預測就是指，基於法律規定及大量以往案件資訊與法律後果之間關係的科學分析，對未決案件法律後果的一種或然性推測。首先，裁判預測的根據包括應然性法律規定、規則，

以及以往案件的實然處理結果、大量的審判經驗。正因為法律規則本身不可能直接拿來預測其適用結果，在實際適用中會面對各式各樣的不確定性，基於經驗的預測才變得有意義。其次，作為預測根據，以往案件事實和處理結果的數量越大，穩定性越強，集中趨勢越明顯，可預測性就越強。沒有一定規模裁判資料資訊的積累、公開，就沒有真正意義上的裁判預測。再次，裁判預測是基於概率分析對裁判實踐提供參考資訊，所反映的是過往審判實踐中的法官集體經驗或“平均理性”，不能替代當下案件的審理結果。

裁判預測其實無處不在：司法人員、律師、當事人、其他訴訟參與人、媒體、學界，都希望知道一個案件進入司法程式後的結果將會如何。而裁判預測的效果到底如何，與許多因素有關。

首先，裁判預測的效果與司法公信力相輔相成，互相促進：裁判預測效果越好，司法公信力就會越高；同時，司法公信力越高，裁判預測的效果也會更好。其次，裁判預測還與違法、犯罪的預防效果有關：當人們對自己行為的法律後果具有較為確定的預見，就會更加理性地選擇自己的行為。違法犯罪招致相應懲戒的後果越不確定，空間越大，人們越可能選擇鋌而走險。再次，裁判預測還與資訊公開的程度有關。在裁判文書全面公開之前，裁判預測只能是紙上談兵。因為裁判預測其實就是在原有充分審判資訊基礎上對未來的推斷，沒有過往資料，就沒有對未來的預測。

不過，也正是裁判文書的全面公開，給裁判預測出了道難題：面對海量的審判資料資訊，傳統的人工檢索、分析、預測方式不得不望洋興嘆。好在，法律迎來了大資料、人工智慧。“阿爾法狗”的勝利，撬動了許多領域的大門，人們開始重新審視自己的工作效率以及引進人工智慧的可能性。對大量的網上社交資訊、博弈資訊、醫療資訊，以及司法裁判資訊，現代資訊科技正好派上用場，讓人們可能從繁重的重複性勞動中解放出來。目前，一些法律大資料、人工智慧的研究成果以及審判預測工具已經成功進入普通人的視野，並受到了多方積極評價，可喜可賀。

大資料遭遇法律特殊性

但是，法律上的裁判預測畢竟不同於棋牌博弈的勝負預測。目前，人工智慧與法律的合作至少有兩個方面。一是減少重複勞動，提高工作效率。在這方面，未來的法律世界無疑是人工智慧的用武之地。另一方面是對法律資訊的深度分析和據此所做的法律後果預測。如果對此不加區分，人工智慧與法律之間就像存在一張帷幕——帷幕的一面，人工智慧認為自己是表演者；而帷幕的另一面，法律認為自己才是主角。尤其對第二種合作而言，誰是表演者的問題至關重要。

筆者認為，大資料、人工智慧要為法律服務。如果對司法裁判本身的特殊規律缺乏應有的瞭解，沒有相應的解決方案，大資料、人工智慧的加入不僅無助於司法公正，甚至可能幫上倒忙。現在，真正讓人擔心的不是人工智慧會不會取代律師、法官的職業，而是對法官、律師在案內案外的許多能動的實踐活動，人工智慧尚知之甚少，甚至無能為力。據此作出的裁判預測，有可能用某種貌似確定的東西掩蓋實際上的不確定性。

首先，目前絕大多數法律大資料研究的主要資料來源是公開的裁判文書，而對案件處理具有顯著影響的因素未必都寫進判決書。的確，案例是法治的細胞，是微縮的法治，包含了法治的許多資訊：立法和司法、事實和規範、實體和程式、原告和被告、問題和結果，等等。

以裁判文書為基本資料來源，法律大資料通常會從海量裁判文書中迅速篩選出滿足一定特徵值的案例。有的是將裁判文書文本碎片化，然後對其進行類型化處理，形成各種分析和檢索的路徑。有的是直接利用電腦程式從裁判文書中抓取有用資訊，滿足相應的檢索需求。直到裁判文書全面公開以前，實現這一點對許多法律人來說都只是個夢。而且，作為這些法治要素的官方記錄，裁判文書以權威機構發佈的標準化電子文本形式向世人公開。這對法律大資料研究和服務而言，簡直是一座免費的金礦。

但是，對這一法律資源的開發利用不能不顧及法治自身的特有規律。因為，裁判文書不等於案例，只是記錄案件處理過程和結果的官方文本，某些案外因素不可能原原本本地體現在判決書中。

例如，一個時期特有的司法政策往往時寬時嚴，且不可能不對具體司法裁判構成影響。對案件酌定情節、特殊加害被害關係等特定事實的理解和把握往往因人而異，既可能體現資深法官長期審判經驗積累乃至人文情懷，也可能暴露不同司法人員對具體案件事實的誤讀。法官的某些價值取向、主觀偏好、司法潛見、偏見、實踐經驗，甚至性別、年齡、學歷、個性等事實上也與案件處理結果有關。此外，各類權錢交易、人情案、行政干預、輿論媒體的介入等因素的影響，也是不爭的事實。而對這些資訊的收集、整理，再強大的人工智慧也尚需時日，至少不大可能從現有判決書中抓取出來。因此，說現有所謂法律大資料所做的裁判結果預測，大都是基於不完整資訊所做的預測，並不為過。

當然，案件資訊的完整性是相對的，裁判預測的準確性也是相對的。但是，由於上述案外資訊既有積極的一面又有消極的一面，所以，所謂相對性並不構成可以忽視案外資訊對裁判預測結果具有雙重影響的理由：一方面，有的案外資訊其實對案件處理具有積極影響，例如特有的加害被害關係，由於種種原因無法寫進裁判文書。這類資訊的缺失，使得法律大資料的運用實際上是裁剪掉部分實然公正後所做的裁判結果預測。另一方面，有的案外資訊其實對案件處理具有消極影響，甚至存在違背法律事實的暗箱操作，當然也無法體現在裁判文書中。而這類資訊的缺失，又使得基於法律大資料的裁判結果預測實際上起到掩飾、固定，甚至放大不公正的效果。可見，法律大資料並不必然推進司法公正，法律大資料也不一定解決司法不公問題。

遺憾的是，對此目前還沒有看到令人滿意的解決辦法。甚至，有些法律大資料研究尚未意識到這個問題的存在。其實，韋伯和《論經濟和社會中的法律》一書的編譯者們早就表達了這個擔心。書中至少有兩處提到了“法律自動售貨機”。一處是在“現代法律的形式特點”一章中，作者指出，現代法律發展已經出現了反形式主義趨勢。……挑戰法律形式主義的反形式主義態度是倫理的，以實質性的正義，而不是以形式的合法性為基礎。在這一語境下，律師作為解釋法律和契約的專門階層，其作用就像一台投幣自動售貨機，只要投入實施（加上費用），便可得出判決（加上意見）。對此，作者的基本態度是，判決是，而且應該是考慮到具體的評價，而不是形式的規範。不難看出，借助自動售貨機的比喻，作者試圖說明，司法實踐是人的能動的實踐，是法律的和各種非法律因素的共同結果。

另一處關於自動售貨機的討論，出現在該書關於“理性的和非理性的司法行政”的論述中。作者首先指出，包羅萬象的法律觀正受到嚴峻的挑戰。人們尖銳地批評那種將法官僅僅看作是一部加工機器的做法，這種法官只知道將當事人的訴訟要求和訴訟費一起塞入機器，然後根據從法典中推演出的理由進行診斷。和上一處一樣，不論誰操作這部機器，都無需操作者特有的能動的、創造性的法律實踐。

可見，借助自動售貨機的說法，作者表達了對那種絕對形式理性的法律觀的否定立場。在這個意義上的自動售貨機中，只有法律概念的機械運算，沒有倫理的、社會的、功利的考量。總之，應予否定的，不是自動售貨機的高效、精確和確定，而是對具體案件具體法律實踐者能動適用法律的忽視。對此，法律人工智慧能做些什麼，能做到何等程度，目前尚不得而知。

其次，即使實現了海量案例的大海撈針，裁判文書中有些有效資訊還是沒得到充分利用，部分法律大資料研究仍難免小樣本思維的危險。通常，遇到“狗咬人”式的大概率常見案件，人們不大會求助於以往案例進行裁判預測。不過，當遇到“人咬狗”式的小概率疑難案件，即法律上不典型、實踐中不常見、含義上不明確的情況，哪怕是大海撈針，人們也希望找到相似生效判決作為參照，以佐證某種立場。為滿足這種需求，傳統的解決方式是自上而下的“供給”，即發佈司法解釋或指導性案例供人們各取所需。

現在，海量裁判文書資訊突然之間全面公開，由“供給”變為“自選”成為可能，人們反倒有些許的不知所措。幸虧借助各種演算法程式的大資料方法，能夠從公開的幾千萬裁判文書中迅速檢索到所需案件。這實際上讓發現相似案件、同類案件的願望得以實現，大海撈針不再是夢想。

而大海撈針找到相似案件，畢竟是一種“案對案”“點到點”的法律結果預測模式。問題是，為什麼某個過往判決怎樣判決，當下某個相關案件就一定要照此辦理呢？畢竟，中國不實行判例法，天下也沒有兩片完全一樣的樹葉。而且，撈到的“針”即所謂相似案例未必能直接推論大海中其他事物的性質，也未必與看上去相似的案例具有法律上的同一性。從量化思維的眼光看，參照這種不一定有代表性的小樣本處理案件，除了可能忽視上述案外資訊的實際影響以外，還在科學性上存疑。

假定有兩組樣本，A和a。A組是某個案由的全樣本，且涉及與該案由有關的全部法定要素。a組是從A組根據有限條件篩選出的部分樣本，僅涉及某些法定要素。A組中用來預測法律後果的引數（法定要素）為X，而a組中用來預測法律後果的引數（法定要素）為X中的一部分，即x。現在的問題是，有一案件的基本要素與a組案件相似，用x對該案件的法律後果進行預測，和用X對其法律後果進行預測，結果是不是一樣的？如果不一樣，用哪個模型對該案進行預測更加科學——X還是x？

舉例來說，一項研究表明，目前裁判文書網上公開的全國所有交通肇事罪判決書約14萬件，我們可以將這組樣本視為A組樣本。以交通肇事罪全部法定情節為引數，以刑期為因變數，對該組樣本進行回歸分析，並將其離散水準加以優化控制後，得到交通肇事罪刑期與法定情節之間關係的統計模型：

模型一：y(^)（交通肇事罪量刑結果）= 115.786+法定死亡人數*329.692+重傷人數*165.221-被害過錯*64.227+涉案損失*6.747E-005+醉駕*51.159+毒駕*58.442+無證*28.812+安全裝置不全*11.427+無號牌*12.352+報廢*41.187+超載*43.991+與准駕車型不符*24.180+逃逸*591.322 -自首*63.856+累犯*248.532+e1

這就是A組樣本的優化量刑模型，其中，等號右邊第一項為常數項，最後一項為殘差，即未知部分。其餘所有項均為法定要素共15個，是影響刑期長短的引數。由於該研究的目的就是分析量刑的合法性程度，所以，未將案外資訊納入模型。以A組樣本即全樣本為資料來源，運行該模型結果得到的回歸確定係數R2為0.734。就是說，這15個法定要素的共同作用，能解釋、預測73.4%的交通肇事罪量刑輕重的變化。模型中與每個法定情節的實際值(如致死幾人、是否逃逸等)相乘的係數在模型中表示為B，是相應法定情節的非標準化回歸係數，其單位是有期徒刑天數。二者的乘積表示：在其他引數固定時，本引數每增加一個單位對刑期的影響。據此，將任何一個未決案件的實際情節依次代入該模型，將得到的每個實有乘積相加，便可得到該案的預測刑期。由於模型中各個引數之間是相加的關係，所以，即使一個案例只具備模型中部分引數，用該模型進行預測，也可分享更大範圍的實踐經驗及其集中趨勢，所得到刑期預測結果可以視為審理14萬案件法官的集體意見。

現在，我們可以做一個實驗：一個需要預測量刑結果的個案，涉及法定要素有重傷一人、醉駕、自首三個條件。於是，從14萬全樣本中當然可以迅速篩選出同樣具備這幾個條件的若干案例，構成a組小樣本共566個，影響其量刑的因素只有上述三個條件，即x。由此得到的模型為：

模型二： y(^)（交通肇事罪量刑結果）=常數項+重傷一人*b1+醉駕*b2-自首*b3+e1

現在的問題變為，這個小樣本中與重傷一人、醉駕、自首對應的係數b，和上述全樣本中同樣三個情節的係數B是不是一樣的？如果一樣，說明用小樣本預測和大樣本預測結果沒什麼兩樣。答案是，當然不一樣。因為前一個模型是完整模型，用來進行預測所得結果，是控制了其他變數下的淨效應預測結果。而後一個模型實際上是假定其他法定要素均為零，即忽略其他要素的存在，據此計算出的係數b當然不可能等於其他要素實際上存在情況下的B。一個更簡單的方法就可證明這一點：上述566個小樣本的平均刑期為510天，刑期中值為360天。而用大樣本模型預測，這個重傷一人、醉駕且有自首情節的個案預測刑期為268.31天——用小樣本部分變數預測比用大樣本全變數預測要重判八個多月！

當然，小樣本的平均刑期也是真實的，甚至可以說，也是只有這三個情節案件的全樣本。但問題是，根據這種樣本進行預測所忽略的，理論上有可能是法律適用中的關鍵變數。其結果，既可能導致高估預測結果，也可能導致低估預測結果。不論高估還是低估，都是偏離。著名統計學家謝宇指出，如果在實際調查中只收集到y、x1和x2三個變數的資料，而忽略了實際回歸模型中的引數x3，則這種情況可能導致回歸模型的參數估計值有偏。即使主要興趣在於研究x1或x2對y的影響，忽略關鍵的引數x3也會影響到對參數b1、b2估計的無偏性。這個道理從法理上說就是，所有交通肇事罪的法定要素都是由法律規定連接起來的一個有機整體，不能將各個要素之間的關係人為割裂開來看。且不說所有要素之間的組合可能多達數萬種，就算得到數萬的真實的刑期均值或模型，也很難說其預測結果體現了法律的完整意思。可惜，目前有些法律大資料應用仍未對此做出區分，沒有意識到小樣本預測的有偏風險。

也許有人會說，這個例子的因變數是連續變數，因而只適用於像刑期、損害賠償額等法律後果的預測。而法律世界中，大量法律後果都是定類變數，如有罪還是無罪、此罪還是彼罪、是否構成侵權違約、勝訴還是敗訴、是否屬於防衛過當、是否贊成廢除死刑等二分變數。這種二分變數只有定性上的差異，沒有程度上的區別。

因此，對裁判預測而言，小樣本的有偏風險不可避免，且可以得到控制。其實，統計學中的logistic回歸分析就是一種對變數層次要求不高，因而對社會科學研究來說很好用的回歸分析方法之一，它可以同時展開多個、多種引數對一個二分定類因變數的統計分析。

的確，採用多元線性回歸等分析方法分析二分的因變數，顯然無法滿足某些重要的統計假設而導致統計推斷的嚴重誤差和荒謬。但logistic回歸分析允許多個多層次的引數，如性別、年齡、地區、行業、文化程度、收入等，都可以同時進入分析過程，一次性地得到它們的共同作用結果，進一步的分析還能分出各自對因變數的作用力大小。所獲結果之一叫做發生比，意思是引數每上升一個單位，因變數結果出現的機會將是原來的多少倍。比如，被害人數每多一個，或者損失金額每上升1000元，勝訴（敗訴）的機會將是原來的多少倍。重要的是，這種分析與上述多元線性回歸分析在原理上沒什麼根本不同。既然如此，說法律世界不得不接受小樣本預測的說法，是站不住腳的。在這個視角看來，與其說滿足于小樣本裁判預測是對法律領域特殊性的忽視，不如說是對基本量化分析原理和方法缺乏瞭解。

對策建議

既然裁判預測意義重大，傳統法學與大資料、人工智慧的合作又有巨大空間，接下來的問題便是，如何進一步拓展這一合作。筆者認為，大資料、人工智慧與法律合作的科學基礎以及裁判預測的根據，是各種意義上法律資訊、司法規律、司法人員集體經驗的深度實證分析。因此建議，推進電腦科學、統計學、法學的跨界融合，在以下幾個方面強化法律實證研究：

第一，廣泛收集判決書以外對法官裁判行為可能構成影響的各種因素及其作用過程的資訊，深入研究法律要素與案外因素的權重對比關係。案外資訊包括案卷材料、公訴文書、辯護詞、原被告關係、法官的自然特徵、經歷、偏好。例如，波斯納等幾位學者在最近的新書《法官如何行為：理性選擇的理論和經驗研究》中，借助於勞動經濟學的概念，把法官模型化為某個勞動力市場（即司法勞動力市場）的參與者，認為法官和其他類型的勞動者一樣，會受到成本和收益的激勵和約束。其中，對法官行為的非貨幣影響因素主要包括付出的努力、外界的批評、同事關係的緊張、閒暇、來自他人的尊重、社會影響力、自我表現、名聲、被任命為更高層級法院法官的機會，等等。書中還關注不同層級法官在進行決策時，意識形態因素（共和黨還是民主黨）和法律條文分析因素的相對權重關係，並大量使用了回歸分析的方法，區分每一個單獨變數所產生的影響。

第二，即使在裁判文書內，仍有一些很有價值的資訊值得深入挖掘。孤立來看，判決書中許多資訊沒什麼意義。但如果聯繫起來看，就會發現一些極具預測價值的資訊、關係或規律被棄之不用，十分可惜。例如，一項研究從如何看待無罪率的視角切入，以32萬刑事判決為樣本，對其中的有罪判決與無罪判決進行量化比較。結果發現，無罪與有罪的司法決定不完全取決於案件基本事實是否符合實體定罪條件，還與刑事訴訟過程中的某種司法潛見有關。司法潛見源於證據資訊不對稱、實體性暗示、控辯力量對比懸殊、控方對案件的初選等四類背景資訊，使司法人員對案件是否有罪的最終結果早有心理準備和預期。司法潛見包括無罪潛見，也包括有罪潛見。由於司法潛見的存在，一些有罪判決是實體定罪條件與有罪潛見的綜合產物。司法潛見位於形式理性與實質理性二元分析框架的盲區，只有在堅持形式理性的過程中，自覺控制司法潛見的影響，才能實現對公民刑事法權利的平等保護。此外，證據資訊也出現裁判文書中，各類證據與裁判結果之間的關係，也可能是法律大資料研究的一座富礦。

第三，預測通常是積極的或然性認識，但實際上，消極的、排除性的或然性認識也可能是一種預測形式。一項75萬刑事判決樣本中的變更罪名案例的研究，就是一個法官集體說“不”的大樣本。據此提煉出來的類型化案件事實法律性質的否定性特稱判斷，其實就是一種消極的或然性預測。從某種意義上說，法律適用的三段論推理過程中，大前提只是被人們事先放進一些東西（規則）的盒子，人們進行三段論推理時往往需要“猜測”盒子裡曾經裝進了什麼。基於大樣本經驗概括的消極或然性預測，不一定能使盒子裡到底有何內容變得比較清晰可見，至少可以告訴人們，盒子裡其實沒有什麼。所以，這種預測又可以稱為一種“小但書”式的裁判預測。因為這種否定性特稱判斷並非出現在刑法總則中，只是對具體罪名適用的排除性預測。而且，結論既可能是絕對無罪也可能是相對無罪（變更罪名）。

第四，盡可能用來自全樣本的完整模型進行裁判預測。模型是以往經驗與未來推斷之間的橋樑，人們只有借助模型才能看到已然與未然的聯繫。所以，殘缺的模型是對原始樣本資訊和人們集體經驗的肢解。沒有完整、科學的模型，再大的樣本對預測來說也毫無意義。另一方面，樣本是蘊含事物之間聯繫的載體，人們只有根據對樣本的觀察才能建構模型，也只有基於樣本資訊才能檢驗模型的科學性。所以，沒有經過科學抽樣規則獲取的足夠大的樣本，再精緻的模型也只是個應然猜想的數學表達。

當然，就連自然現象的預測，如天氣預報，也可能存在一定誤差，司法裁判預測也不可能絕對精准。畢竟，樣本越具代表性，模型越完整科學，進行裁判預測所冒的犯錯誤的風險就越小。即便如此，預測結論也只是個參考資訊，不能代替審判結論。一旦預測代替了結論，預測所根據的樣本和模型就喪失了學習能力，預測本身也即失去了生命力。所以，給實際裁判留有足夠空間的預測，或者不夠精准的預測，才是科學的預測。

《探索與爭鳴》唯一官方微信平臺

———— /

/ ————

其次，裁判預測還與違法、犯罪的預防效果有關：當人們對自己行為的法律後果具有較為確定的預見，就會更加理性地選擇自己的行為。違法犯罪招致相應懲戒的後果越不確定，空間越大，人們越可能選擇鋌而走險。再次，裁判預測還與資訊公開的程度有關。在裁判文書全面公開之前，裁判預測只能是紙上談兵。因為裁判預測其實就是在原有充分審判資訊基礎上對未來的推斷，沒有過往資料，就沒有對未來的預測。