芥末翻｜通過大腦預測誤差來進行社會學習

【芥末翻】是芥末堆全新推出的一檔學術欄目，由芥末堆海外翻譯社群的小夥伴們助力完成。我們致力於將全球經典或是前沿的教育理念、教育技術、學習理論、實踐案例等文獻翻譯成中文，並希望能夠通過引進這類優質教育研究成果，在全球教育科學的推動下，讓更好的教育來得更快！

瞭解這個世界對於生存和成功至關重要。作為一類社會物種，瞭解他人是融入社會的必要組成部分，並最終有助於提高進化的適應性。人類和非人類動物如何發掘其他動物的內在狀態和經歷，長期以來都是傳統發展心理學在涉及自我和他人的學習和決策領域的研究熱點。

本綜述中，研究者探究了心理學如何概念化表徵他人的過程及神經科學如何揭示強化學習原理，從代表自我和他人獎勵相關資訊的角度探索社會學習潛在的神經機制。特別是，研究者討論了多個大腦結構中的自我參照和他人參照的獎勵預測誤差類型，探究了如何有效運用強化學習演算法調解社會學習。基於預測的大腦計算原理在自參照資訊和其他參照預測誤差資訊之間可能明顯地有保守成分，這也意味著研究有章可循。

表徵他人的歷史觀點

瞭解世界並做出適應性決策是認知的關鍵特徵。人類和非人類動物也正是利用這一重要連接來改造環境並求得生存。

如果動物並非獨處一隅，即與其它同類生活在同一群落，決策就更加複雜多變。研究者非常瞭解人類和非人類動物如何從自己的行為和結果中學習，熟知這些自參照預測誤差在大腦中再現，然而卻對他人大腦計算原理的探尋方式知之甚少。在這篇綜述中，研究者研究了大腦中存在代表他人行為和獎勵結果的其他參考預測誤差。

首先嘗試瞭解他人這一概念的學科之一是發展心理學，相關研究人員經常探究嬰兒瞭解世界的方式。理論-理論觀點指出，兒童就像小科學家一樣驗證因果關係，他們不斷收集世界的資料，再對收集到的資料做出預測，並加以驗證。在觀察、直接和替代經驗的基礎上，

他人可以被視為學習物件。

相反，模擬理論假設人們通過自參照理解他人，運用個人思維過程機制將知識投射到他人行為。隨後將這種模擬他人的概念與個體皮層運動神經元的鏡像神經元活動聯繫起來，進而也解釋了獼猴通過觀察某一動作後做出相同動作。

值得注意的是，這些理論針對其他參照資訊在大腦的表徵過程做出了不同預測。 6 根據一位元模擬學家的敘述， “他人”這一概念來源於個人自我意識，也就是以自我為中心。關於他人的概念發端並依賴於自參照的自我中心機制。然而，理論-理論指出處理和評估他人的資訊，如同從周圍環境獲取其他參照資訊一樣，都可能會遇到多中心型系統。

過去這兩個概念表達了大腦表徵他人的核心問題。

觀察學習與社會學習

人類和非人類動物都依靠觀察來認知世界。鼠、鳥、黑猩猩通過觀察其他同類，瞭解他們在特定環境或社會背景下的行為表現。最早的觀察學習形式中就有模仿。模仿學習通常是未成熟生物體模仿規範的運動行為。嬰幼兒和幼猴在發育早期模仿照顧者所有面部表情，只要成年人伸舌頭，他們也會反射性地伸出舌頭，這很可能是大腦通過簡單運動反應來提升社交技能的一個例證。在觀察學習或更廣泛的社會學習研究中，兒童的模仿行為是最典型的例子。

學習者觀察智慧體行為時，社會學習就此發生。而且，無需任何實踐或直接重要強化，

學習者即可完成之前所觀行為。這表明學習者能夠通過觀察其他成熟的結果，也可能通過替代強化獲得新知或技能。社會學習的功效取決於幾個社會變數。例如，觀察者和被觀察者之間的相似性可以提高學習效率。此外，共情和社會學習之間有著密切聯繫。共情會對對方特徵資訊十分敏感，例如觀察者和被觀察者是否平等，或被觀察者屬於觀察者圈內還是圈外。此外，在靈長類動物中，社會地位直接影響基於其他同類的這類學習，其中地位高的個體更易被模仿。

人類的觀察學習可能是建立社會和文化規範的核心。在班杜拉（Bandura）行為建模的經典研究中，如果兒童看到成人模型對大型玩偶的攻擊性行為，當兒童有機會與同一玩偶互動，也會表現出相同的攻擊性行為。觀察學習在兒童成長及後來的社會交往和社會認知中發揮舉足輕重的作用。自我學習和他人學習如何在大腦結構中表徵，及自我和他人相關學習信號是否參與相似或迥異的神經計算，皆是社會學習過程中的重要課題。

研究者給本綜述定義的社會學習重點在於觀察學習。在這種學習中，一個主體通過行為觀察及獎勵結果瞭解另一個主體。然而，社會學習與社會交往本身一樣存在多面性。人們可以瞭解他人的不同方面，例如個性或心理狀態。社會學習也可以體現向他人學習的獎勵結果（例如，教師回饋學生作文成績）。

高層次社會認知

瞭解他人後即可構建其他個體的內心狀態。解構他人信念的能力稱之為心智理論（ToM）。心智理論可以稱之為瞭解其他個體最複雜的一種形式，涉及大量其他參照及加工處理。嬰兒可以解讀他人的信念就說明了嬰兒對世界的理解從一開始就非常複雜而豐富，也難怪長期以來人們對心智理論機制的學習興趣十分濃厚。心智理論到底代表單獨的社會過程還是許多廣義過程的融合18，這仍然存在爭論。心智理論往往通過執行假想信念任務來衡量，該任務可以19檢測測試者能否在社會模型下對一個物體的位置形成假想認知。低齡段幼兒，甚至如11個月大的嬰兒，竟能解讀他人的內心信念，並且能“通過”假想信念測試20，這表明大腦的參照他人處理功能在人類個體發育的早期就已出現。

然而，心智理論在非人類動物上的研究結果更加複雜。例如，嬰兒可以通過的假想信念任務，猴子卻無法通過。靈長類動物已經出現運營其他理解方式理解其他同類。猴子通過跟隨注視表現出集體關注。猴子會追隨另一個主體凝視的物件或方向，表明它們可以理解這個主體的視角，或通過固有神經機制反射性，分配自己的注意力來理解其他人的凝視，處理與他人的凝視角度，興趣及價值之間的聯繫。與此類似，研究者已證明猴子和黑猩猩可以理解對一個獨立個體來說什麼視覺資訊是可被利用的，如果有偷食機會，它們傾向於從沒有視覺接觸的個體開始偷食。這表明即使靈長類動物不一定能模擬其他個體的想法信念，但也理解其有不同的視角。

總而言之，人類和非人類動物都具有複雜的社會認知能力，但其複雜程度可在進化過程中區分。瞭解其他參照資訊的運轉模式及自我和他人的信念呈現，將進一步協助我們認識大腦是如何將有關資訊升級到更高層次的社會認知。

強化學習原則

無論是人類還是非人類動物，都是以強化學習理論為基礎的各種學習和決策任務的絕佳模型。為了對有機體的行為（特定情境下有機體的行為方式，以及在考慮動機和主觀價值等內部狀態下進行決策）作出明確和可測試的預測，通過數學模型描述學習和學習成果是一種強有力的方式。27強化學習原則可以用比較簡單細緻的規則來捕捉看似複雜的行為，如著名的Rescorla-Wagner模型。28雖然不同的強化學習模型在不同的認知現象描述方面有所不同，但它們有幾個共同的核心要素，如學習的速度或刺激的顯著性，進而更好地適應學習和具體決策過程。

強化學習根植並應用於工程學和心理學。理查·貝爾曼（Richard Bellman）致力於研究強化學習的核心基礎，他因貝爾曼最優方程和動態規劃而聞名於世。強化學習廣受重視的根本原因是，生物體從環境中收集資訊來學習並做出決定，這種方式被強化學習概念化。強化學習需要智慧體主體在特定環境中通過根據不同狀態或情境做出反應。其他必要組成部分還包括獎勵信號、價值功能和策略。獎勵結果是所有形式強化學習的中心，由智慧體主體在環境中的行動結果構成並形成一定數量。然後智慧體主體使用該獎勵結果來計算價值函數，推測特定狀態/環境的期望值以及特定狀態和動作的連接。智慧體主體使用這些價值函數來開發一組優先行動，稱為決策。環境模型是強化學習可選的部分，可以為生物提供狀態轉換的指導。

貝爾曼為工程應用開發的動態規劃需要一個完整的環境模型。除了假設未來狀態29下潛在行為總期望增益之外，這個想法要求智慧體主體的行為由此行為期望增益來指導。此原則同樣適用於時間貼現（TD）模型，強化學習模型的主要形式應用於人類和其他動物的心理學研究。時間貼現學習和動態規劃存在顯著不同——時間貼現不需要任何環境模型。相反，學習通過比較期望獎勵和實際獎勵，在一定的時間過渡之後得到實現。這個差異就是獎勵預測誤差，用於更新值函數，並最終用於智慧體與其環境交互的決策。預測誤差信號確實是原始學習模式的基本屬性。28簡而言之，預測誤差會計算動物在給定的事件或試驗中預期發生與實際發生的行為差異。這也可以稱為誤差信號。

大腦預測編碼與強化學習

預測誤差被有效地用作驅動自參照學習的信號。生物體在試驗的基礎上更新自己的行為，以此說明這種期望和結果之間的差異所提供的新資訊。特別是計算預期回報與獲得回報之間差異的獎勵預測誤差已被確定為神經生物學中數學學習規則的重要關聯知識。

在大腦中編碼的經典型的獎勵預測誤差與時間貼現學習所需的類型一致。由於獎勵對適應性行為的本質屬性，獎勵編碼的區域是除了參與感覺運動轉換的大腦區域之外的一些最佳研究區域。根據經典學說，多巴胺能黑質和被蓋腹側以及背側和腹側紋狀體已被證明是處理獎勵接受和評價的主要區域，多巴胺與獎勵的關係現在被稱為神經遞質關聯的最具代表性的行為之一。你可以預見，這些區域提供了獎勵預測誤差編碼的強有力示例。

在大腦的其他地方也發現了獎勵預測誤差信號（Reward prediction error signal）。靈長類動物外側韁核神經元編碼關於獎勵結果的互惠資訊，與先前描述的中腦多巴胺神經元有關。值得注意的是，外側韁核神經元的活動先于多巴胺神經元的活動，表明外側韁核神經元作為在中腦中檢測到的預測誤差信號的輸入源。此外，對人體的功能磁共振成像( fMRI)揭示了大腦皮質內遍及眾多獎勵相關結構，存在多種預測誤差和其他學習相關信號，表明預測誤差信號是一種廣泛的連接學習和決策的廣義機制。將這些模型應用于界定行為和神經活動的概念化，在學習和決策研究中已證明卓有成效，也許最著名的發現是中腦多巴胺神經元代表時間貼現獎勵預測誤差（TD reward prediction error）。

如今至少有兩個研究強化學習（RL）的重要神經科學分支仍在繼續。第一個分支涉及模型無關（基本時間貼現學習）和模型相關（類似於動態規劃）學習的神經基質之間的潛在平衡。這些研究共同發現了模型相關狀態轉移誤差的神經基質，模型相關的表徵是除了紋狀體和腹內側前額皮質中的模型無關預測誤差範圍之外的，以及在模型相關和模型無關的方法之間充當判優器的大腦區域。第二個分支是替代強化，它也可以在強化學習框架中建模，從而說明如何通過運用替代類的預測誤差，將他人的行為用來更新我們自己的學習和決策過程。強化學習可能在關於他人的行為和獎勵的社會學習中加以實現。

強化學習原則中的這種替代性強化將直觀地以相關模型運行，因為在對其他行為主體的潛在思想和未來行動的模型不加以創造和更新的情況下，我們不清楚模型無關的強化學習系統如何盡可能瞭解另一個行為主體。因此，關於人類如何使用強化學習機制來學習和推斷他人的研究，已經應用了涉及被模擬者的經修改的Q學習框架。儘管強化學習創造了解釋和概念化社會學習的重大機遇，但卻存在可應用於社會認知的其他計算模式。例如，一些人認為，形成強化學習理論基礎的假定強化學習獎勵預測誤差，反而可以被解釋為預期違反或顯著性，特別是與皮質區域的活動有關。在相對缺乏明確的強化學習原則的情況下，其他專門設計用於通過博弈論方法闡明心智化能力的模型在探索社會行為方面非常成功。這些方法主要包括無限遞迴生成其他行為個體的反覆運算演算法。這些方法不僅解釋了獵鹿博弈中典型的人類行為，而且還發現了自閉症譜系障礙患者遞迴社會認知的具體缺陷.

對於要學習的各種不同事件，例如動作值、獎勵值和獎勵定時，可以會出現預測誤差信號。此外，預測誤差不限於獎勵域。預測誤差計算的證明甚至存在於大腦的感覺運動區域，這些區域處理諸如小腦和額頁眼動區（關於預測誤差的類型和相關腦區，參見表1）的精細調諧動作。因此，批評信號負責糾正大腦各種功能區域的行為輸出和認知表徵，而且認可預測編碼是大腦的關鍵特徵的觀點。

隨著人們在描述日益複雜的人類行為方面取得長足進步，試圖將對自我學習和決策的研究納入他人行為的學習和決策範圍中，現已成為一個備受關注的課題。對於社會有機體來說，對特定事物做出適當的反應並正確地預測它們的行為是必要的，這就要求它們依賴於瞭解彼此，就像它們依賴於瞭解在何處覓食以生存一樣。正如預期的那樣，瞭解他人以及自我和他人的表徵是由幾個與獎勵相關的大腦結構所傳遞的。

自參照和他人參照強化信號的神經基礎

在本節中，研究者將討論選定的研究成果，這些成果提供了關於大腦如何在強化學習和決策領域發出自我參照和其他參照資訊信號的新見解。如果適用，研究者將重點關注其他參照預測誤差信號，這些信號與行動和獎勵結果相關，獎勵結果又同社會學習聯繫密切。

大腦紋狀體

神經科學領域的最新進展為運用強化學習機制向他人學習提供了各種支援。雖然紋狀體長期以來一直是大腦中自我參照獎勵資訊和預測誤差的焦點，但紋狀體在學習中的作用並不限於自我參照處理。在一項關於多巴胺釋放的觀察性學習和替代性強化的研究中，當觀察到另一隻老鼠接受獎勵，相比獎勵品被投放至某個空盒子裡時，觀察鼠在腹側紋狀體中發出更多的聲音並釋放明顯更多的多巴胺。58這些結果將多巴胺釋放與預測誤差信號相關的作用擴展到了社會領域，暗示著類似的強化學習機制參與了他人的獎勵結果的信號傳遞。值得注意的是，與自己的獎勵相比，對他人獎勵結果的多巴胺釋放程度仍然明顯較弱，這表明雖然使用了類似的機制，但其方式可以區別於自我和他人。58在參與自我和他人的動作和獎勵結果的任務環境的猴群中，紋狀體中的神經元在發信號通知他人執行動作的同時，發信號通知自己所接收的獎勵而不是他人所接收的獎勵，59這表明紋狀體中可能存在發信號通知自我參照和其他參照資訊的特化器官，並且這種區分可能進一步取決於對另一個體的動作和獎勵結果的編碼。

還有證據表明，紋狀體代表人類功能磁共振成像研究的其他參照獎勵和預測誤差。當由同伴進行社會評估時，先前與個體的積極的社交互動導致個體與積極的結果相關聯，所述積極的結果與紋狀體中的活動以及眶額皮層的活動相關。這表明社交互動同樣可以啟動大腦區域，通常表示主要強化因素的增強值。紋狀體似乎也參與了獎勵的相對評估，可將他人的表徵與自己的表徵加以比較。在最後通牒博弈的實驗中，受試者將錢給同伴並能拿回一部分錢，紋狀體的啟動也與預測誤差相關，這些預測誤差反映了受試者從同伴那裡得到的提議與他們期望同伴給予的提議之間的差異，而不是受試者期望的感覺與他們實際感覺之間的差異，似乎反映在腹內側前額皮質( vmPFC)和後扣帶皮質中。

此外，關於期望形成的類似於強化學習的預測誤差形成了關於他人怎樣看待與紋狀體、眼窩前額皮質（OFC）、前喙扣帶皮質（rACC）和前腦島活動相關的主體。需要瞭解他人的行為和結果和/或他人的內部狀態建模的各種經濟博弈風格的任務已經表明，紋狀體包含在這些過程中。例如，他人觀察到的行為會影響自己的經濟決策，這反映在紋狀體血氧水準依賴腦功能（BOLD）回應中。此外，如果社會學習的額外回報被去除，只需要對他人執行純粹的觀察任務，那麼在紋狀體中仍然會發生人際預測誤差。類似地，互惠博弈證明學習信任或不信任他人的行為是由尾狀核中的預測誤差信號傳遞的

有趣的是，紋狀體中的這些其他參照預測誤差甚至可能與社會規範相關聯，因為它們在依賴他人回饋的經濟博弈中被啟動。與違背小組意見相關聯的預測誤差類型信號也表明與下述內容的相關性，即受試者如何改變其行為，從而在隨後的判斷中與該組保持一致性.

在信任博弈中，投資者給受託人資金後，受託人可向其返還一部分資金，參與人所預估的受託人的還款率與受託人實際償還的金額之間的差異導致了受試者中紋狀體的預測誤差，這種誤差是因為他們依靠了合作夥伴的學習行為。此外，在同一研究中，投資者的投資比例與投資者建模（他人對投資者所執行行為的建模）之間的差異形成了第二級預測誤差。值得注意的是，研究發現，未能深入模仿同伴的大腦的受試者將體會更多第一類預測誤差中的紋狀體相關性（即，更多地依賴于他人的行為），而受試者模仿同伴的大腦的內容越多，他們就越有可能啟動紋狀體，從而產生第二級預測誤差（即，更多地依賴于他人的心理表徵）。

前扣帶皮質

多種行為和認知狀態均與前扣帶皮層( ACC)有關，可以概括為一個與動機、發起獎勵導向或目標導向行為有關的綜合領域。從這個角度看，前扣帶皮層可能是整合不同的自我參照資訊流和其他參照資訊來產生適應性行動計畫的核心軌跡（參見圖1，其他參照獎勵和大腦行動區域的視覺化）。前扣帶皮層參與社會決策的大量證據支援了這一點，前扣帶皮層的神經元信號反映了關於自我、他人或兩者的資訊處理。在觀察性學習領域，前扣帶皮層特異性鈣電流缺失可以有效地消除小鼠通過觀察同種個體衝擊的學習能力。與此相關的是，疼痛的觀察方面已經成為研究人腦中同感的主要焦點。觀察另一個人受傷和經歷疼痛的跡象會引起移情關切，並積極參與前扣帶皮層的特定部分活動。經歷疼痛時，前扣帶皮層也同樣被啟動。這種共用的機制支援觀察導向的替代疼痛處理被限制或重新用於處理自己的痛苦。

前扣帶皮層可能代表皮層通路中的一個關鍵接合點，從自我和他人的角度通過處理動機來代表和區分自我和他人。當猴子執行社會獎勵分配任務時，監測個體前扣帶皮層神經元的峰形活動，其中，行為動物可以選擇向接受者遞送或扣留果汁獎勵，這表明在發出自我和他人的獎勵結果的信號方面存在著特殊性。更具體地，在前扣帶回ACC( ACCg)的腦回中，一些神經元專門編碼自我獎勵，而另一些神經元專門編碼他人的獎勵，還有一些神經元編碼自我和他人的獎勵結果。81值得注意的是，損傷前扣帶回而非前扣帶溝，消除了對猴群的社會評價，表明前扣帶回在社會認知中的因果作用。類似地，在人腦中，頭側前扣帶皮層神經元與上述前扣帶回神經元有所疊蓋，在需要觀察性學習的紙牌遊戲中，從他人那裡獲得信號獎勵結果。

圖1. 涉及與另一個體相關的表徵資訊的關鍵大腦區域。這些腦區往往與下述內容相關聯，如心智化能力，檢測他人的信念，或發出有關另一個體的決策變數的信號。請參閱文本，瞭解這些領域如何與表徵另一個體的資訊相關聯。冠狀磁共振成像的插圖表明各個截面（紅線）與尼式染色的矢狀切片相對應。某一腦區周圍的虛線輪廓表明該區域從外側表面向中間投射，目的是使該區域成為大腦更內側的一部分。根據網站http://www.brains.rad.msu.edu 和http://brainmuseum.org許可進行改編，得到美國國家科學基金會和美國國立衛生研究院的支持。ACCg前扣帶回, ACCs前扣帶溝, dlPFC背外側前額葉皮層, dmPFC背內側前額葉皮層, IPL頂下小葉, MTG 內側顳骨回, PCC後扣帶回皮質, PrCu楔前葉, STS 顳上溝, TPJ 顳頂聯合區, vmPFC 腹內側前額葉皮層

此外，ACC中的神經元已被證明是在猴子進行囚徒困境博弈時調停集體獎勵引導的行為，從而提供強有力的證據表明自我和其他過程被整合到ACC中。自我和其他融合到ACC的證據還得到了一個解剖梯度的支援，這個解剖梯度沿著人類的扣帶在一個信任博弈中繪製自身和他人，如果沒有回應的合作夥伴，該遊戲則不存在。此外，已經假定ACCs和ACCg代表不同的資訊流。

準確的社會學習需要多種類型的預測誤差信號（參見圖2，大腦中自我參照和其他參照預測誤差的表徵）。例如，觀察行為預測誤差表示另一個人實際行為與預期行為之間的差異，而替代結果預測誤差表示另一個人實際結果和預測結果之間的差異。此外，為了判斷他人的動機，替代性的動態預測誤差表示他人在他們的動作期間的實際和估計的活動運動學之間的差異48。在ACC中已經報告了自我參照行為值的預測誤差，並且ACC的溝和回部分都涉及自我獎勵評估和決策。ACCs因涉及眾多功能而被深入、充分研究，包括誤差檢測和動機以及認知控制和反應選擇。最近，關於ACCs是否涉及計算價值引導的行為適應或認知控制，存在著廣泛的爭論。

值得注意的是，在腦回和腦溝之間似乎有信號功能分離的自我參照資訊和其他參照資訊。例如，與另一個人做出的選擇有關的預測誤差可以在ACCg中找到，但在ACCs中找不到。此外，ACCs神經元在社會決策任務中以自我參照方式編碼獎勵結果，而ACCg神經元的亞組以其他參考方式進行。同樣，在競爭競爭博弈中，自我參照的獎賞結果預測誤差與腹側紋狀體的活動相關，但關鍵的是，有關基於信念的競爭夥伴行為的預測誤差在頭端ACC（rACC）中進行編碼。此外，在涉及利用另一個人建議的社會決策任務中，ACCs和ACCg分別對自己和他人的學習率進行了差分計算。總體而言，儘管已經在ACC中檢測到社交信號，但是根據跨越全腦神經影像學、電生理記錄和解剖專業累計的證劇，ACCg與其他參照資訊處理具有最明確的聯繫。

前額葉皮質

前額葉皮層有許多子區域，通常被認為是與決策有關的高層認知過程的場所。因此，前額皮質的許多部分處理其他參照資訊是憑直覺完成的。當觀察另一個人的誤差選擇時，通過在成對的猴子輪流進行決策任務期間通知特定目標與可能獎勵之間的關聯，背內側額葉皮層中的神經元編碼這對猴子所犯的誤差，作為社交誤差監控功能，這依賴於其他參照資訊。同樣，腹內側前額葉皮層（vmPFC）編碼人類觀察另一個人在尋求獎勵任務行為中的價值，並與該個體向符合社會規範的行為相關聯。其他類型的預測誤差在前額葉皮質也發現了其他類型的預測誤差。當參與者通過直接經驗或觀察另一個人的行動和結果學習刺激與獎勵結果之間的偶然性時，與獎勵有關的不同前額結構表明自我和他人的學習相關事件。在這種情況下，腹側紋狀體表示自我預測誤差，背外側前額葉皮層（dlPFC）表示他人行為的預測誤差，vmPFC表示他人的結果預測誤差。

圖2顯示的關鍵大腦區域與行為（a）和獎勵/價值結果（b）中的自我參照資訊預測誤差（黃色）或其他參照預測誤差（紫色）或兩種預測誤差（綠色）有關。對於運動學習相關的誤差，研究者只提供在大腦中具有代表性的區域，因為它們超出了本綜述文章的範圍。值得注意的是，這些自我參照或其他參照預測誤差信號的分佈區域自然地受到檢查不同類型預測誤差的研究量的限制。帶有冠狀磁共振圖像的插圖指示對應的大腦矢狀面尼氏染色（紅線）部分。虛線輪廓區域表示該區域從側面向內突出，目的是將該區域包括在大腦更內側的區域上。根據http://www.brains.rad.msu.edu，http：//brainmuseum.org的許可進行改編，得到美國國家科學基金會和美國國立衛生研究院的支持。ACC前扣帶皮層，ACCg前扣帶回，ACCs前扣帶溝，dlPFC背外側前額葉皮層，dmPFC背內側前額葉皮層，LHb外側韁核，LIP側顱內區，MTG內側顳骨回，OFC眶額葉皮層，SC上丘，SN黑質，STS顳上溝，TPJ顳頂聯合區，vmPFC腹內側前額葉皮層，VS腹側紋狀體，VTA腹側被蓋區。

此外，Suzuki等人研究了學習刺激-獎勵結果突發事件的神經相關性，在參與者直接瞭解該關聯以及參與者預測另一個人可能選擇哪種刺激時的兩種情況，鼓勵參與者塑造或精神模擬其他個體。這種操作需要使用其他參照的預測誤差，這個誤差計算了另一個人做什麼和參與者認為另一個人會做什麼之間的差異。同樣，前額皮層的不同部分作為自我參照和其他參照計算功能被使用。腹內側前額葉皮層以與自身相似的方式跟蹤類比他人的預測誤差，而模擬他人動作的預測誤差在背內側前額葉皮層（dmPFC）和背外側前額葉皮層（dlPFC）顯示。值得注意的是，猴子背內側前額葉皮層中的神經元活動已經顯示出對手在競爭獎勵任務中密切反映的策略，進一步加強了背內側前額葉皮層在模擬其他方面的專門作用。這與Behrens等人的研究結果是一致的，其中前扣帶回和前扣帶溝分別計算了可分離的獎勵信號以用於其他參照和自我參照的獎勵資訊，並且這些信號被整合到腹內側前額葉皮層中。

最後，眶額葉皮層（OFC）是顯示獎賞價值的關鍵皮層區域，並且與顯示值預測誤差信號相關聯。儘管眶額葉皮層神經元對涉及自我和他人的社會獎勵環境敏感，但是這些神經元的獎勵結果編碼似乎是自我參照的，這表明眶額葉皮層可能更局限于調節行為適應，包括在自我參照的框架下適應社會環境。

關於他人的各種預測誤差的編碼是許多與獎勵相關的大腦區域特徵，這表明自我學習與學習他人或向他人學習之間存在緊密的生物聯繫。特別是這些結果支持這樣一種觀念：理解和學習另一個人的經驗是根據共同的預測編碼原則進行處理的，這些原則包括自我和其他領域的特定區域專業領域。

顳頂聯合區和心智化網路

引用心智理論時，需要另一個人的建模，比起他人而言，尤其要啟動一個人的楔前葉（PrCu），後扣帶回（PCC），以及顳上溝（STS），顳頂聯合區（TPJ）和內側前額葉皮層（mPFC）他人。長期以來，顳上溝和顳頂聯合區一直被認為是像心智理論這樣的高級認知和建模他人精神的神經熱點。顳頂聯合區尤其被認為是一個獨特的社會認知重點領域98，有證據表明顳頂聯合區是代表他人信念的必要條件。對心智理論相關領域的元分析確定了最可靠的牽連區域是顳頂聯合區和側前額葉皮層，楔前葉和顳上溝的啟動對於各種心智理論方法背景下的心智理論類型較敏感。值得注意的是，研究人員發現側前額葉皮層中自我指涉的思想與他人的心智化有著密切的聯繫，表明自我參照和其他參照資訊在心智化網路的一個關鍵區域是如何相互聯繫的。

值得注意的是，顳頂聯合區和顳上溝的組成並不是專門為測量心智理論而設計的。當考慮他人的資訊來指導自己的行為時，顳頂聯合區和顳上溝也被啟動，表明了他們對廣泛定義其他參照計算的參與。當參與者考慮到另一個人的建議來獲得潛在獎勵的決定時，背內側前額葉皮層、內側顳骨回（MTG）、顳上溝和顳頂聯合區啟動信號表示社會預測誤差。此外，當針對人類對手和電腦演算法進行簡化的撲克遊戲時，顳頂聯合區作為預測行為相關的社會決策的獨特區域而出現。另外，顳上溝在視覺線索的社會認知中扮演著重要角色。因此，跟蹤和解釋社會相關資訊可能是構成所謂的心智化網路區域的基本組成部分。最近提出的一個簡明提案稱顳頂聯合區是一個計算中心，其中注意力、記憶力、感官知覺和語言等不同的認知過程都彙聚在一起，產生行為相關的社會背景的表徵。

與這個想法相對應的是，這一心智化網路中的許多節點已被觀察到執行額外的功能，這些功能與社會行為的其他方面有潛在關聯。例如，已經提出後扣帶回計算主觀價值以及其他相關的社會過程，包括人的感知、更新和第一印象.

結束語

黑爾（Hale）和（薩克思）Saxe109提出，心智化可能是一個基本的預測過程。雖然研究者目前對大腦如何實現理論-理論或模擬理論中描述過程的理解並不完整，但似乎被神經表徵的其他參照預測誤差以神經學的形式展現，這一事實表明，存在用於社會學習和強化學習的基於預測的共同學習機制。其他參照學習的神經機制可以從用於學習自我的預測機制中選擇，其中之一是預測誤差信號。將強化學習和決策的術語連接到社會領域可以加強發展研究者如何思考他人的思路和方法。

其他參照學習還有很多額外的維度有待探索。隨著實驗者繼續推動研究社會學習、互動和評估的極限，研究者可能會發現自己正在刷新大腦處理“社會”和“非社會”的極限。除了大腦中其他參照的表徵之外，社會處理也可以指代社會主體與非社會主體之間的比較。雖然不同的大腦區域可能會應用類似的計算來解釋自己和他人，但社會資訊處理背後的神經過程可能並非與其他類型的資訊截然不同，而是處於一個連續統一體。例如，當人類參與者與其他個人或與被程式設計具有不同程度慷慨的老虎機夥伴玩遊戲，顳頂聯合區、後扣帶回、楔前葉、腹內側前額葉皮層和其他幾個區域中的啟動相似地反映了人類和老虎機夥伴對慷慨的預測誤差.

這一發現和許多觀察到社會和非社會資訊之間的大腦啟動調節差異的發現可能表明，大腦事實上可能並不區分這兩種資訊，而是根據特定行為約束所要求的實現演算法來處理資訊。也許社會功能可以被看作是大腦的遺傳功能被賦予新的目的，演變成處理有機體的社會環境。那麼“社交大腦”的概念應該關注如何使用特定的常用計算演算法來指導適應性行為。

致謝：

要感謝A.N.，L.S.和D.L.對原稿所提出的周到建議。這項工作得到了國家精神衛生研究所（S.W.C.C., R00-MH099093, R01-MH110750, R21-MH107853），Alfred P. Sloan基金會（S.W.C.C.，FG-2015-66028）和加拿大自然科學與工程研究理事會PGSD獎學金（M.P.，471313）的支持。

原文連結：https://www.nature.com/articles/s41539-017-0009-2.pdf

>>聲明

本翻譯僅作瞭解之用，並非用於學術研究或商業決策。芥末堆海外翻譯社群的小夥伴們力求將關鍵理念與思想更廣泛地傳播至中文區域，故部分表達可能與原文有所差異。如需使用，請查證原文。

當兒童有機會與同一玩偶互動，也會表現出相同的攻擊性行為。觀察學習在兒童成長及後來的社會交往和社會認知中發揮舉足輕重的作用。自我學習和他人學習如何在大腦結構中表徵，及自我和他人相關學習信號是否參與相似或迥異的神經計算，皆是社會學習過程中的重要課題。