您的位置:首頁>正文

中國方言區英語學習者語音習得機制的跨學科研究中期檢查報告

一、 研究進展情況

1、課題開題與子課題進展情況

① 研究計畫總體執行情況及各子課題進展情況(如下圖)

該研究的目標是針對中國方言區英語學習者的發音特點和偏誤類型,開展一系列的跨學科研究,提出可以用於電腦口語評測與課堂學習的矯正方法,以針對不同方言區英語學習者進行發音評測和制定個性化的學習方案,同時為方言區英語口語能力評測提供科學的依據。 根據上圖的研究路線,本課題研究凝練出3個關鍵性研究問題,設置了四個子課題(如下圖)。 目前,四個子課題均按照進度執行。

子課題1:中國方言區英語學習者大規模語音庫與標注系統構建(負責人:賈媛)

完成了語音總體方案設計,完成了東北(200人)、山東(200人)、寧波(50人)、廈門(50人)和長沙(50人)等方言區的語音錄製,共550人,錄製了每人約10個小時,合計約5000小時的語音。 完成任務過半。

1.1 語音庫與標注系統總體方案制訂

中國社會科學院語言所負責完成了語音庫總體方案制訂,包括方言區分佈確認、英語語音庫的發音文本設計、語音庫錄音和標注規範的制訂。

1.1.1 方言區分佈(如下圖)

1.1.2 語料庫發音文本設計

英語語料包括英語單詞、片語、短語、句子和語篇(如下圖)。 為了便於開展英漢對比研究,我們同時還採集了漢語的語料,包括普通話和方言的單字調、兩字組、三字組、句子和語篇。

1.1.3 錄音平臺(如下左圖)和錄音資料自動切分

錄音時,發音人配戴耳麥(如下右圖),坐在電腦螢幕前,朗讀顯示在電腦螢幕上的單詞、句子或篇章,錄音由英語專業的研究生操作,錄製完成需進行聽音檢查。

對所有錄音提供自動音段切分程式

1.1.4 完成方言區英語語音標注系統構建

音段標注:在對音效檔進行標注時,在音段標注上,首先採用自動切分軟體,對英語單詞、句子和篇章進行自動切分,不僅切分單詞邊界,也切分音素邊界。 標注符號採用ARPABET符號集。 對於方言普通話的切分,首先採用自動切分程式,對詞邊界和聲韻邊界進行自動切分,然後用手工對邊界進行校準和修改。 方言的切分主要依靠手工,符號集採用SAMPA。

超音段標注:對英語發音的超音段特徵的標注,選用IViE語調標注系統和ToBI語調標注系統相結合的系統。 IViE系統是由ToBI發展而來的,但又有所區別,兩個系統的結合方式,主要是將ToBI中的間斷指數層加入IViE標注系統中,標注層級包括:

(1)正則層(orthographic tier):將說話人所說的正確詞語標記下來;

(2)音素層(phoneme tier):對所有母音和輔音邊界進行標注;

(3)間斷指數層(break index tier):對語調短語、中間短語和詞邊界進行標注,其中4、3、1分別代表前面3種韻律邊界;

(4)突顯層(prominence tier):標記突顯音節,突顯的音節用“P”表示,並標記在重讀母音的中間位置;

(5)目標層(target tier),即語音層(phonetic tier):對語調的變化進行語音上的描寫。

1.1.5 錄音和標注培訓

社科院負責對各個課題組進行錄音和標注培訓,系統講解實驗語音學的基本理論知識和標注分析方法。

標注人員經過反復練習,經過一致性測試後方可進行標注,以保證錄音和標注的品質。

1.2 東北方言區資料收集和標注

東北方言區課題組負責東北方言區英語學習者語音庫的建立和研究。 選取了東北具有代表性的四個城市—長春、哈爾濱、瀋陽、大連—收集錄音語料,每個城市選取發音人50名,男女各半,四個城市共200人。 每個城市的50人中,有20人每人發音時長約為15個小時,其餘30人每人發音時長約為5個小時。 發音人是來自上述四個城市的吉林大學本科生和研究生。

完成了所有錄音的音段切分工作,並開展了大規模的標注,在標注基礎上開展了語音偏誤特徵分析。

1.3 山東方言區資料收集和標注

山東課題組自立項以來,收集並建立了200人的山東方言區英語學習者語音庫。 建庫採納了山東方言研究者錢曾怡(1985,2001)對山東方言區的劃分,即東區與西區,東西區又各下分兩個片,即東萊片和東濰片,西齊片和西魯片。 我們從這四個片的代表縣市尋找發音人,儘量按男女人數相等的原則遴選發音人。 發音人皆為某高校的在校大學生和研究生。 錄音歷時一年半的時間,現已全部完成。 每片男女各25人,共採集200名發音人的錄音資料,每人錄音時長達10小時。

完成了錄製的語音資料的音段切分,開展了大規模的音段標注標注,在標注基礎上開展了語音偏誤特徵分析。

1.4 寧波方言資料收集和標注

寧波方言研究收集了50名被試(男女各25人)、人均錄音時長在8-12小時之間的英、漢口語語料(漢語又分普通話和寧波話)。 提取語料的文本涵蓋了詞、句和短文,形式以朗讀和看圖會話為主。為了盡可能地排除干擾因素,被試來源地域主要被限制在寧波老城區,以規避李榮在《寧波方言詞典》(1997)中所定義的語音變體帶來的差異;受試物件基本來自在校大學生和研究生,群體年齡控制在19-28周歲之間,弱化新、老寧波話的差別;選取的發音人多具有10年以上的英語學習經歷,語言水準中上。漢語普通話相當於3級甲等,在日常生活中可自如完成普通話和寧波話之間的語碼轉換,父母為寧波本地居民或長期生活在寧波地區的方言使用者。

完成了錄製的語音資料的音段切分,開展了大規模的音段標注標注,在標注基礎上開展了語音偏誤特徵分析。

1.5 長沙方言資料收集和標注

長沙方言研究收集了50名被試(男女各25人)、人均錄音時長在8-12小時之間的英、漢口語語料(漢語又分普通話和長沙話)。提取語料的文本涵蓋了詞、句和短文,形式包括朗讀、看圖會話和即興演講。為了盡可能地排除年齡、地域因素造成的干擾,被試基本上是來自長沙市區的來自在校大學生和研究生,群體年齡控制在19-28周歲之間,以規避《長沙方言詞典》(1998)中所定義的語音變體帶來的差異;選取的發音人多具有10年以上的英語學習經歷,語言水準中上。漢語普通話相當於3級甲等,在日常生活中可自如完成普通話和長沙話之間的語碼轉換,父母為長沙本地居民或長期生活在長沙地區的方言使用者。

目前已完成了10人語音資料的音段切分工作,並對已切分音段進行音段標注,在標注基礎上開展了英語單母音偏誤特徵分析。

1.6 福州方言資料收集和標注

構建了福州方言區英語學習者英語、福州話及普通話語音資料庫。發音人為43名熟練使用福州方言的在校本科層次及碩士研究生層次的英語學習者。語料採集歷時一年時間,現已全部完成,每個發音人的錄音時長超過10小時。語料除了各個子課題使用的通用語料之外,還錄製了福州方言。標注方面,利用Praat軟體,綜合ToBI和IViE標注系統的優勢,根據需要對採錄的語音材料進行了嘗試性的分級標注,並對標注的檔進行了初步的資料處理,分析福州方言區英語學習者在音段層面與超音段層面的語音特徵,對比總結其與本族語者語音系統的異同點,探究學習者英語語音習得偏誤及福州話對英語語音習得的遷移效應。研究報告還在整理中。

1.7 英語母語者語音庫收集和標注

社科院課題組收集了英國和美國英語母語發音人各10人的資料。完成了資料的自動音段切分標注和部分韻律標注。

子課題2:中國方言區英語學習者語音偏誤特徵與自動標注系統構建(負責人:胡方)

我國的英語教育十分重視詞彙、語法等語言形式,而對語音、語調的作用重視不夠,從而導致我國英語學習者發音不準確,語調不連貫,難以用英語進行口語交流。建立中國英語學習者語音庫,依據聲學指征分析學生的英語發音,不僅可以彌補單純依靠聽辨感知學習語音的不足,也為語音學、音系學及二語語音習得研究提供全新的研究視角,對二語習得研究、外語教學和電腦輔助教學系統具有重要的理論價值和實際意義。在方言區英語學習者語音庫基礎上,課題組陸續開展了語音偏誤分析,取得了一批階段性成果。

2.1 東北方言區課題組語音研究

對東北方言區英語學習者的語音偏誤特徵進行聲學研究,主要從音段和超音段兩個層面進行。音段層面考察輔音和母音的發音偏誤。輔音我們用嗓聲起始時間(VOT),強頻集中區等聲學參數考察。母音用第一、第二或者第三共振峰等參數考察。超音段層面主要考察學習者在短語和句子層面的發音特徵,包括重音分佈、停頓、語調短語切分和邊界調類型等。我們將東北方言區發音人的聲學參數與標準英語發音人的聲學參數進行系統的對比分析,從而發現學習者聲學特徵與標準英語發音人的聲學特徵之間的差異,找出學習者的發音偏誤,進而探討普通話以及東北方言的某些特殊音段特徵如何影響學習者成功習得英語的母音和輔音,方言聲調系統以及普通話聲調系統如何影響學習者正確習得英語語調。

2.2 山東方言區語音研究

山東方言區英語學習者語音庫是目前在全國單方言區建庫人數最多的,其研究的切入點也比較有規律性。在語音習得、聲調習得以及英漢語音對比方面都有涉及。我們也將研究的成果與其他方言區進行交流,如和東北方言區英語學習者語音庫互換研究成果,交流所開展的研究工作,並就山東方言語音習得特點與東北方言區英語學習者習得特點進行對比,以期發現異同。同時,我們還共用了目前各自庫中所有的本族語者語音資料。

目前我們已對山東方言兩區四片的英語學習者的四個前母音習得做了較為全面的研究,與美國本族語者的發音進行了對比,初步總結出了山東方言英語學習者語音學習的規律和特點。研究採納了實驗語音手段,得出的結果具有客觀性與可信性。

2.3 寧波方言區語音研究

分佈在浙江寧波、舟山地區的寧波方言以其“石骨鐵硬”的發音風格、個性化的語音特徵和生動形象地表達方式成為吳語太湖片區具有代表性的重要方言。對現行語言政策和語言生態環境下的方言區英語學習者而言,來自母語因素的影響更為複雜。近年來,隨著語言研究視角的擴展和傳統語音教學困境的凸顯,對學習者獨特的語音系統和節奏韻律模式描述和解讀獲得了更多的關注。

初步研究成果顯示,寧波方言區英語學習者的語音產出從音段、韻律節奏到語調型層面與英語本族語使用者間存在系統的差異。仲介語體現出的語音特徵明顯受到學習者母語,特別是方言方音的遷移。語料庫技術和實驗方法的介入不僅使語音教學和研究從對傳統“口耳之學”的感性經驗的依賴轉向基於大資料統計的理性分析成為可能,還可將研究得發現充分地融入教學實踐環節,借助參數的對比和試錯,對語音偏誤加以有效的預判,突出教學重點,形成針對性的教學策略,服務於以提高溝通效能為核心的方言區的英語語音教學。

2.4 長沙方言語音研究

長沙方言是新湘語的代表方言,屬於長益片長株潭小片,主要使用于長沙市區和長沙縣。由於果攝字母音的高化演變,長沙方言的母音系統屬於偏後型母音三角(貝先明,2008),其後母音與屬典型母音四角的美式英語具有更大的相似度,而前母音與美式英語具有更小的相似度,因此是母音偏誤較為理想的研究材料。

初步研究成果顯示,長沙方言區英語學習者難以區分英語中的/i-ɪ/、/ʊ-u/等相似母音對,且與英語本族語者在個體母音發音上有較大差異(如下圖)。

長沙被試在發英語/ʊ u/時傾向於用母語中的/u/代替;同時,/i/ /ɪ/ /ɔ/在聲學空間的高低維度上與方言中的相似母音無明顯差異。研究結果對課堂英語教學有一定的指導意義:傳統的英語語音教學受對比語言分析理論影響,著重於母語和外語發音有差異的部分,但本研究結果為語音學習模型提供了實證支援,發現學習者產出與母語相似的英語母音時,會因範疇構建過程的同化機制產生偏誤。因此,教學的側重點應轉移到相似母音上,落實到長沙地區英語語音教學中,則應重點關注/i u ʊ ɔ/的發音。

2.5 方言區英語學習者韻律自動標注系統構建研究

韻律標注包括韻律邊界和音高事件(重音、邊界調等)的標注。隨著語料庫規模的增大,人工標注的工作量急劇增加,標注成本較大。此外,韻律標注具有一定的主觀性,保證不同標注人員之間標注結果的一致性較為困難。因此,採用電腦技術自動而準確地進行語料的標注是本課題的一個重要研究工作。

課題組針對韻律邊界的標注,提出了基於隱瑪律科夫模型(Hidden Markov Model; HMM)聲學建模與狀態解碼的自動韻律標注方法。採用該方法用於韻律自動標注的優勢包括:在基於聲學特徵分佈進行韻律邊界標注時可以充分考慮其他已知標注資訊對於分佈參數的影響;通過整句解碼的方式確定韻律邊界標注結果,考慮了句中不同位置處韻律邊界標注間的相關性;使用與語音辨識類似的演算法框架,可以借鑒語音辨識中較為成熟的模型訓練與解碼演算法。

在具體實現中:提出基於窮舉搜索的韻律短語邊界自動標注方法,分析了合成系統中不同特徵與上下文資訊對韻律標注性能的影響,驗證該方法的可行性;在此基礎上又提出了基於維特比搜索的韻律短語自動標注方法,在保證標注結果準確性的前提下,提高了標注的效率;進一步提出了結合n-gram先驗分佈的韻律短語自動標注方法,通過利用文本層面的先驗知識,進一步提高了韻律標注的準確性,在標準英語庫Boston University Radio News Corpus和Blizzard Challenge 2007英文語料庫上分佈取得了79.6%和81%的標注F-score。

課題組將利用方言區英語學習者語音庫,對現在提出的韻律邊界分類模型進行改進。

子課題3:中國方言區英語學習者語音與音系學習機制研究(負責人:宋大為)

課題組開展了英語學習者的母音產出、發音和感知空間關係的研究。目前完成了資料收集和初步的分析。創新在於從三個空間維度,對英語學習者的語音發音生理、聲學、和感知資料進行採集和分析,深入探索學習者的語音習得機制。本項目利用電磁發音儀釆集學習者的英語和母語的母音發音運動資料,以及英語本族語者的運動資料,用科學、直觀的方法對比和分析不同發音人的生理發音特點,科學構建發音人在母音發音中的舌位運動空間。並同時結合感知實驗的多模態研究方法,深入和全面地挖掘學習者的音位範疇習得特徵。

3.1 L1 和L2的EMA英語資料獲取

本項目利用電磁發音儀(Electromagnetic Articulography; EMA)釆集學習者的英語和母語的母音發音生理運動資料,以及英語本族語者的運動資料,用科學、直觀的方法對比和分析不同發音人的生理發音特點,科學構建發音人在母音發音中的舌位運動空間。另外,基於聲學資料,即母音的共振峰F1、F2和F3數值,構建聲學母音圖。通過對比中國學習者和英語本族語者的英語母音聲學特徵、以及學習者的母語方言聲學特徵,分析和歸納學習者的英語母音偏誤特點,探究英語產出和方言母語間的關聯性。

EMA的採集系統為德國引進的Carsten AG500儀器,錄音取樣速率為200赫茲。每次錄音共需用到9個感測器(如下圖),其中6個感測器分別要粘貼在每位發音人的舌根、舌體、舌尖、下齒齦、下唇和上唇位置;另外3個感測器分別粘貼在發音人的鼻樑、左耳根和右耳根位置,作為對資料進行頭部校準處理的參考點,資料釆集時要求發音人語速較慢,發音清晰。

電磁發音儀可以讓人們更直觀地跟蹤發音時舌位元的運動情況。通過構建發音人的母音發音生理空間對比英美本族語者和學習者的舌頭運動情況(如下左圖)和舌頭位置(如下右圖)。

3.2 感知實驗和資料處理

本部分研究將學習者的發音語料作為感知實驗中的刺激音,並請25名英語母語者(包括英國人和美國人)參與對學習者的母音發音進行了聽辨實驗和評分實驗。感知實驗研究用Eprime2.0軟體設計和完成。

感知實驗1為聽辨實驗,要求英語母語者每聽到一個刺激音後,從備選單詞中,選出所感知到的單詞。實驗2為評分實驗,要求英語母語者對聽到的每個刺激音中的母音發音進行評分。

3.3聲學錄音和資料處理

本部分研究通過中國社科院語言所語音室的專業錄音軟體以44.1 KHZ的取樣速率,採集了發音人的英語發音語料,語料中涵蓋了英語中的18個單雙母音,包括11個單母音/æ/,/ɛ/,/ɑ/,/ʌ/,/u/,/ʊ/,/i/,/ɪ/,/ɔ/,/ɒ/,/ɜ:/和6個雙母音/aɪ/,/ɒɪ/,/eɪ/,/aʊ/,/oʊ/,/ju/。每個母音都在一個真實的英語單音節單詞中,單詞大多都是以阻塞音或摩擦音作為首尾輔音。

通過Praat腳本(熊子瑜2016)自動提取到每個單詞母音穩定段上10個等分點的F1,F2和F3數據。接下來,我們將第3-8點上的F1,F2和F3值分別求均值,作為代表該母音音質的共振峰資料,這樣在一定程度上可以去除音節首尾輔音對母音共振峰的影響。

子課題四:中國方言區英語學習者語音學習策略與應用平臺研究(負責人:顧曰國)

現代資訊技術與課堂教學的整合是我國英語教育改革中的重要問題,新的教學模式實現了(1)以學生為中心,使學習者有了更多自主學習和合作學習的機會;(2)教師利用電腦輔助交流平臺能更好地監測學生的發展,獲取學生的回饋資訊,增強課堂模式的互動性;(3)移動互聯網技術的發展,提高了資源的共用和推廣,使得線上學習成為未來發展趨勢。大城市學校的現代化語音教育手段可以帶動偏遠地區的課堂教學,縮小教學水準上的差距,實現教育公平化。資訊交互平臺的多元化和現代化特徵有利於推動我國的外語教育的改革和發展。

研究創新處在於推動現代化科技成果在教學應用中的實踐,使科技創新更好地服務於社會需求具有重要的理論和現實意義。課堂將3D動態發音視覺化模型、自動語音評測系統、訓練語音感知和產出的APP軟體應用於語音教學課堂中,促進傳統課堂向多元化、多模態的發展。學習者在多模態的資訊交流平臺和類比語言情境中,學習、體驗和實踐知識,豐富語音課堂的教學模式,調動學生的積極性,克服傳統語音課堂中形式單一、內容抽象、學生缺乏興趣的問題。為未來更多現代資訊技術與課堂教學的融合嘗試提供參考。在立項的1年多時間裡,課題組完成了兩方面工作。

4.1 3D發音建模

本研究擬以我國各個方言區的大學英語學習者的語音特徵為考察物件,利用電磁發音儀EMA(AG500)和核磁共振MRI的三維舌位元空間資料,探討各個地區英語學習者的發音問題,構建我國首批面向英語學習者的三維發音生理模型,為二語學習者的發音問題提供視覺化資訊回饋(visual feedback),打破目前語音評測體系中只提供評分,而沒有回饋的局限性,進而發展語音評測的有效性和視覺化,也為開發面向教育應用的視覺化語音訓練系統和平臺提供有價值的參考。

目前完成了部分MRI資料和EMA資料的收集。使用電磁發音儀,在發音器官表面粘貼了感測器(用於記錄發音過程中局部發音器官的位置資訊),採集了同步的語音信號和感測器的位置資訊,用核磁共振設備採集了同一發音人的發音器官(舌、下顎、上顎等)的MRI形態數據。

在此基礎上,建立了一個虛擬實境系統,該系統能即時將輸入的語音信號轉換成高真實度的三維舌頭運動序列。利用深度神經網路建立從語音信號到感測器位置的映射關係;用MRI形態資料,用有限元方法建立了一個舌的生理模型;將這兩個模型依次串聯起來,得到了發音過程中舌頭即時運動的虛擬實境系統。實驗表明,該系統能夠依據輸入的語音信號生成高真實度的發音器官的運動序列。

4.2 “語音教學與測試平臺”建設

按照國家社科基金重大專案的研究計畫和進度安排,第四子課題組於2016年初開始啟動“語音教學與測試平臺”建設的調研和研發工作。

經過細緻論證,該平臺將主要著眼於學習者語言聽說能力的訓練和培養,以富文本形式向學習者全方位呈現字、詞、句、語篇等語音材料的標注資料內容,並具備語音播放、錄製和聲學參數動態呈現等基礎功能,還將支持跟讀、混播、對比、評測等輔助學習功能。

目前該平臺已完成了前期的技術調研、方案設計和程式開發等基礎工作,並初步實現了xReader系統,可用於語音訓練和跟讀學習(操作介面如下圖)。

xReader可呈現的資料內容:文本方面,以篇章材料為例,xReader目前可以呈現語句、短語、詞語、音標等不同層級的標注內容及其翻譯資訊,還可通過字型大小大小、字元顏色變化等手段來凸顯相應的文字內容,如語句重音、詞重音等;聲學參數方面,xReader目前可以動態分析並呈現寬頻語圖、窄帶語圖、音高圖和波形圖等資料內容。

為便於用戶的學習和跟讀,xReader提供了豐富的語音播放方式:

針對清單內容主要有兩種播放方式:(1)順序播放,對清單中選定的內容從上往下依次播放,用戶可自由設定中間的停頓時間;(2)隨機播放,對清單中選定的內容按照隨機順序進行播放,使用者可自由設定中間的停頓時間。

針對語句內容,不僅可以播放全句內容,也可以根據需要選定其中的某個短語或詞語進行播放,還可以在波形圖或語圖上自由選定某個聲音片段進行播放。

針對使用者錄音內容主要有三種播放方式:(1)混合播放,混合播放語句的原始聲音和用戶聲音,以便於用戶對比;(2)僅播放原始聲音;(3)僅播放用戶聲音。另外,該程式還支援將原始聲音和用戶聲音拼接起來同屏顯示與播放。

xReader可支援錄音與採集:該工具支持學習者按句錄音,並可自動保存使用者語音資料,從而實現學習者語音資料的動態集采功能。

2、調查研究及學術交流情況

為了對獲取的語料進行標注以便開展深入的分析,社科院專家和學者到各個子課題組交流訪問,介紹語料標注和分析技術,並多次組織人員參加社科院主辦的學術交流和專題研修活動,啟動聯合指導模式,定期派出學生到社科院訪學,參與課題研究。課題組成員先後參與相關國內學術會議、專題研討和研修活動共32次,成功申報科研專案共7項,教研課題共1項,指導學生成功申報相關課題共3項(均已結題)。

課題組成員在期刊、國際和國內重要會議上、論壇和沙龍發表研究成果32篇,其中英文12篇,EI檢索8篇,CSSCI檢索2篇,指導與本課題相關碩士畢業論文共12篇,共1篇獲得優秀論文獎。

3、學術會議與學術交流活動

課題組參加學術交流列表:

2016年6月,胡方,Speech Prosody 2016。

2016年7月,聞欣怡、賈媛,第十二屆全國語音學學術會議。

2016年7月,王宇、賈媛、李愛軍、徐亮,國際中國語言學學會第24屆年會。

2016年7月,唐穎、潘淑芳,第十二屆全國語音學學術會議。

2016年7月,唐穎、董倩,第十二屆全國語音學學術會議。

2016年7月,唐穎、張麗娜,第十二屆全國語音學學術會議。

2016年7月,周曉鳳、李丹丹,第十二屆全國語音學學術會議。

2016年7月,周曉鳳、楊迪,第十二屆 全國語音學學術會議。

2016年7月,周曉鳳、劉珊珊,第十二屆全國語音學學術會議。

2016年9月,翟紅華、王妃妃、李愛軍、趙瑾,第五屆中國英語語音教學研究國際研討會。

2016年9月,Qian Chen、Zhenhua Ling, Chenyu Yang, Lirong Dai,Interspeech 2016。

2016年9月,Xinyi Wen、Jia Yuan,Interspeech 2016。

2016年9月,Hongwei Ding、X. Xu,Interspeech 2016。

2016年9月,Fang Hu, Chunyu Ge,Interspeech 2016。

2016年9月,Liping Xia, Fang Hu,Interspeech 2016。

2016年9月,Hu, W., Hu, F., Jin, J.,Interspeech 2016。

2016年9月,周曉鳳、張景哲,語言文化的影響與變遷國際學術研討會。

2016年9月,唐穎、魏召召,語言文化的影響與變遷國際學術研討會。

2016年9月,周曉鳳、範曉丹,海峽兩岸外語教學研討會。

2016年9月,唐穎、魏召召,第五屆中國英語語音教學研究國際研討會。

2016年9月,李愛軍、林茂燦,第三屆韻律語法研究國際研討會。

2016年12月,李愛軍、林茂燦,應邀到天津大學外國語言與文學學院做特邀報告:漫談語音的相似性英漢語調的“同”和“異”》。

2016年10月,王宇、賈媛、李愛軍、徐亮,Oriental-COCOSDA 2016。

2016年10月,丁紅衛,First Symposium on Linguistic Diversity in China。

2016年11月,丁紅衛,“新資訊技術下高校教學變革與革新”學術研討會

2016年12月,翟紅華、趙瑾、李愛軍、賈媛,山東國外語言學研究會年會。

2017年3月,Qiang Fang, Ran Luo, Jianguo Wei, Wenhuan Lu, Weiwei Xu, Yin Yang,IEEE VR 2017。

2017年10月,Yuan Jia, Wang Yu, Aijun Li, Liang Xu, Dawei Song,第14屆全國人機語音通訊會議。

2017年10月,賈媛、王宇、李愛軍、徐亮,第14屆全國人機語音通訊會議。

組織學術會議列表:

2016年10月,UPenn-SJTU Symposium on Speech Science and Computational Linguistics

2017年6月,上海交通大學外國語學院2017年音系學與實驗音系學高級研討會

2017年7月,上海交通大學外國語學院2017年語音學與大腦神經機制研討會

2017年10月,國際言語產出會議,將組織專題研討:Production and Perception of Tone in Language Acquisition

4、成果宣傳推介情況

專案組積極在專案成語之間和國際上共用與推介資料庫和研究成果。其一,社科院專家與各個方言課題組和各個子課題組進行密切溝通,進行錄音和標注資料的培訓,保證收集資料的品質、資料標注的規範性和可靠性。其二,各個方言課題組共用公用基礎資源,並交流研究成果。其三,積極在國際上推廣研究成果、共用資源。課題組積極組織國際研討會,並在在國際會議上發表論文,並且參加每年O-COCOSDA組織的亞洲英語學習者資料庫和語音研究研討(AESOP-SIG),並將在亞洲範圍共用基礎資源部分資料。

二、 研究成果情況

1、山東方言兩區四片的英語學習者前母音習得研究

翟紅華、王妃妃、李愛軍、趙瑾(2016)山東方言區英語學習者英語母音音段習得的實驗語音研究——以前母音/i/、/ɪ/、/ɛ/、/æ/為例,第五屆中國英語語音教學研究國際研討會。

我們對山東方言兩區四片的英語學習者四個前母音/i/、/ɪ/、/ɛ/、/æ/習得進行了實驗語音研究。具體實驗語料由兩部分組成,山東學生和美國本族語者的朗讀語料。語料全部來源我們所建的山東方言區英語學習者語音庫。包括英語和漢語語料。本研究從山東學生的朗讀語料和美國本族語者的朗讀語料中,隨機抽取了64位山東學生(每個城市兩男兩女,年齡20-24歲)和4位美國學生(兩男兩女,年齡20歲左右)的語料作為研究物件。山東發音人分別是來自山東某高校非英語專業的本科生和研究生。在入學之前他們一直生活在方言區,方言是他們日常交流語言。他們的英語學習特別是發音在一定程度上受到方言的影響。抽取的東濰區學生的語料包含兩部分:英語語料和方言語料。英語語料選取以濁輔音/b/、/d/、/g/為首輔音,目標母音/i/、/ɪ/、/ɛ/、/æ/居中,爆破音結尾的單詞,見下表。

為了研究山東東濰區學生英語發音受方言影響的程度,本研究還選取了這些發音人的方言語料。方言語料是以/b/、/d/、/g/為聲母,以韻母/i/和/ɛ/結尾的單字構成,見下表。

通過對比山東和美國兩地學生的母音共振峰F1和F2,發現山東學生習得母音/i/和/æ/要優於母音/ɪ/和/ɛ/,而且山東學生試圖用方言/i/和/ɛ/來代替英語母音/ɪ/和/ɛ/的發音。這主要是受到方言的影響:山東方言對母音/i/的習得產生了正遷移影響,而對母音/ɪ/和/ɛ/的習得產生了負遷移影響。實驗資料真實有效,具有客觀性,一改以往主觀定性的研究,對英語語音教學具有參考價值,同時對學生自身的語音學習有很大的幫助,對於北方官話區英語學習者語音的學習也有一定的借鑒作用。

2、寧波方言區英語學習者的單母音聲學特徵分析

王宇、徐亮、賈媛、李愛軍(2017)基於英漢語對比的單母音聲學特徵分析,《寧波大學學報》,01期。

該研究以言語學習模型為支撐,利用聲學語音實驗的方法,在音段層面考查了10位來自寧波方言區英語學習者11個英語單母音(如下左圖),並對照寧波方言和漢語普通話相似的3個頂點母音/i,u,a/語音產出的共振峰特徵(如下右圖),推論方言和普通話對英語發音可能存在的影響。研究發現:方言區發音人與英語本族語者之間的英語單母音產出存在系統性差異;寧波方言及普通話語音體系對方言區學習者的英語語音產出具有明顯的負向遷移。

研究的發現為ESL語音教學的支撐理念(如言語學習模型)提供了數理上的依據,統計結果除了顯示出發音人與英語母語者母音產出差異和趨勢,還對語音遷移中相似音位間的影響力做出了推斷,有助於語音教師在語音偏誤預判得基礎上把握教學重點,制定有效的應對策略,克服母語的遷移效應。

3、影響外語口音感知和可懂度的聲學及發音資訊探究

智娜(2017)《影響外語口音感知和可懂度的聲學及發音資訊探究》,中國社會科學院語言研究所博士後報告。

本研究以我國北京方言區的大學英語學習者為考察物件,通過三項實驗:(1)聲學實驗;(2)英語本族語者對學習者發音的感知實驗;(3)借助電磁發音儀(EMA)的母音生理發音實驗,來探討影響學習者外語口音和發音可懂度的相關聲學、感知及發音特徵,以及這三個維度之間的對應關係。本研究分別對比了學習者和英國人、學習者和美國人在母音聲學層面上的共振峰特徵和時長特徵,以及在發音生理層面上的舌尖、舌體、舌根、下唇、下齒齦的運動特徵情況。我們將聲學和生理的7個參數同英語本族語者的感知結果相對應,發現聲學層面上的共振峰特徵可以顯著影響英語本族語者對母音可懂度和口音的感知,而時長特徵對可懂度和口音的影響不顯著;在生理層面上,舌體和舌根的運動變化對母音可懂度和口音的感知影響最為顯著,其他發音器官的影響不顯著。本研究在聲學、發音、和感知三個維度上的研究資料可以為外語學習者的母音發音提供有效的糾正型回饋意見。學習者要降低外語口音對母音發音的可懂度影響,要練習和區別各個母音,尤其是對立母音在發音動作上的區別,而非時長特徵上的差異;另外,教學中有必要引進視覺化的發音工具和模型,對可懂度較低的母音有針對性地開展舌體和舌根的發音運動模仿和練習,提高外語的發音品質。

4、自動韻律邊界預測研究

Chen, Q., Ling, Z., Yang, C., Dai, L. (2015). Automatic phrase boundary labeling of speech synthesis database using context-dependent HMMs and N-Gram prior distributions. Interspeech.

論文提出了基於隱瑪律科夫模型(Hidden Markov Model,HMM)聲學建模與狀態解碼的自動韻律標注方法。採用該方法用於韻律自動標注的優勢包括:在基於聲學特徵分佈進行韻律標注時可以充分考慮其他已知標注資訊對於分佈參數的影響;通過整句解碼的方式確定韻律標注結果,考慮了句中不同位置處韻律標注間的相關性;使用與語音辨識類似的演算法框架,可以借鑒語音辨識中較為成熟的模型訓練與解碼演算法。在具體實現中:首先提出基於窮舉搜索的韻律短語邊界自動標注方法,分析了合成系統中不同特徵與上下文資訊對韻律標注性能的影響,驗證該方法的可行性;在此基礎上又提出了基於維特比搜索的韻律短語自動標注方法,在保證標注結果準確性的前提下,提高了標注的效率;進一步提出了結合n-gram先驗分佈的韻律短語自動標注方法,通過利用文本層面的先驗知識,進一步提高了韻律標注的準確性,在Boston University Radio News Corpus和Blizzard Challenge 2007英文語料庫上分佈取得了79.6%和81%的標注F-score。

5、發音視覺化建模研究

Fang, Q., Luo, R., Wei, J., et al. (2017). Acoustic VR in the mouth: A real-time speech-driven visual tongue system. IEEE VR.

“一帶一路”國家重大發展戰略除了要求國內的資金、技術走出去,同時也需要大量聽、說、讀、寫能力全面的語言人才為“走出去”戰略服務。發音的準確與否是語言能力評價的重要指標之一。然而,發音往往是語言學習的薄弱環節。有些學習者的母語中沒有目的語言的某些語音單元,造成學習者僅僅從聽覺上無法意識到語音單元的差異,給學習這些語言的發音造成很大困難。可視語音技術能生成與語音信號同步的發音器官運動視頻資訊,並以視頻的方式回饋學習者發音時發音器官的位置資訊,能夠説明學習者克服發音學習中的上述困難,提高語言學習的效率。

在發音學習過程中,發音器官的運動資訊對於提高學習的效率有積極意義。然而,除了唇的運動能直接觀測外,其它的發音器官通常都位於聲道內部,很難直接觀察。因此,即時捕捉發音過程中舌頭的快速三維運動是一件十分困難的事情。本研究採用如下方法建立了一個新的虛擬實境系統。該系統能即時將輸入的語音信號轉換成高真實度的三維舌頭的運動序列。首先,我們使用EMA在發音器官表面粘貼了感測器(用於記錄發音過程中局部發音器官的位置資訊),並採集了同步的語音信號和感測器的位置資訊,並基於此資訊利用深度神經網路建立從語音信號到感測器位置的映射關係。其次,我們用MRI採集了同一發音人的發音器官(舌、下顎、上顎等)的形態數據。基於上述發音器官的形態資料,我們用有限元建立了一個舌的生理模型。該模型充分考慮了舌頭的非線性形變,舌頭形變過程中的體積不變性,以及舌頭在運動過程中與周圍器官(下顎、上顎等)的碰撞。為了提高模型的即時性,我們採用了空間減縮的方法用在低維度空間中計算舌頭的形變。最後,我們將前兩部建立的模型依次串聯起來,得到了本文描述的發音過程中舌頭即時運動的虛擬實境系統(如下圖)。實驗表明,該系統能夠依據輸入的語音信號生成高真實度的發音器官的運動序列。

6、英語語調與漢語語調的對比研究

林茂燦、李愛軍(2016)英漢語調的相似性與對外漢語語調教學,《中國語音學報》第7輯。

本文為研究英語語調與漢語語調之間在聲學或語音表現上的相似性,從“相似不等於相同,相似是客觀事物存在的‘同’和‘異’矛盾的統一”(張光鑒,1992)的相似性定義出發,觀察和研究英語語調和漢語調調之間哪些是“同”,哪些是“異”。漢語是聲調語言,英語是非聲調語言。我們看到英語與漢語之間的重讀凸顯及疑問和陳述邊界調,都存在語音表現和語音特徵的“同”和“異”,因而,英漢語調有相似性。

“心智和思維產生於人跟外界的相互作用,在這個相互過程中,人通過自己的身體獲得經驗,這個經驗用“體驗”稱之為最合適。“心寓於身”還有一層意思是概念和概念系統的形成要受人類身體構造的制約。例如人對各種顏色的分辨很大程度上是由人體視網膜的生理構造決定的。”(沈家煊,2005)我們認為,英漢語調的相似性有其認知和生理上的理據。

這篇論文應邀作為大會報告在第三節漢語韻律語法國際研討會上報告。

課題組供稿

提取語料的文本涵蓋了詞、句和短文,形式以朗讀和看圖會話為主。為了盡可能地排除干擾因素,被試來源地域主要被限制在寧波老城區,以規避李榮在《寧波方言詞典》(1997)中所定義的語音變體帶來的差異;受試物件基本來自在校大學生和研究生,群體年齡控制在19-28周歲之間,弱化新、老寧波話的差別;選取的發音人多具有10年以上的英語學習經歷,語言水準中上。漢語普通話相當於3級甲等,在日常生活中可自如完成普通話和寧波話之間的語碼轉換,父母為寧波本地居民或長期生活在寧波地區的方言使用者。

完成了錄製的語音資料的音段切分,開展了大規模的音段標注標注,在標注基礎上開展了語音偏誤特徵分析。

1.5 長沙方言資料收集和標注

長沙方言研究收集了50名被試(男女各25人)、人均錄音時長在8-12小時之間的英、漢口語語料(漢語又分普通話和長沙話)。提取語料的文本涵蓋了詞、句和短文,形式包括朗讀、看圖會話和即興演講。為了盡可能地排除年齡、地域因素造成的干擾,被試基本上是來自長沙市區的來自在校大學生和研究生,群體年齡控制在19-28周歲之間,以規避《長沙方言詞典》(1998)中所定義的語音變體帶來的差異;選取的發音人多具有10年以上的英語學習經歷,語言水準中上。漢語普通話相當於3級甲等,在日常生活中可自如完成普通話和長沙話之間的語碼轉換,父母為長沙本地居民或長期生活在長沙地區的方言使用者。

目前已完成了10人語音資料的音段切分工作,並對已切分音段進行音段標注,在標注基礎上開展了英語單母音偏誤特徵分析。

1.6 福州方言資料收集和標注

構建了福州方言區英語學習者英語、福州話及普通話語音資料庫。發音人為43名熟練使用福州方言的在校本科層次及碩士研究生層次的英語學習者。語料採集歷時一年時間,現已全部完成,每個發音人的錄音時長超過10小時。語料除了各個子課題使用的通用語料之外,還錄製了福州方言。標注方面,利用Praat軟體,綜合ToBI和IViE標注系統的優勢,根據需要對採錄的語音材料進行了嘗試性的分級標注,並對標注的檔進行了初步的資料處理,分析福州方言區英語學習者在音段層面與超音段層面的語音特徵,對比總結其與本族語者語音系統的異同點,探究學習者英語語音習得偏誤及福州話對英語語音習得的遷移效應。研究報告還在整理中。

1.7 英語母語者語音庫收集和標注

社科院課題組收集了英國和美國英語母語發音人各10人的資料。完成了資料的自動音段切分標注和部分韻律標注。

子課題2:中國方言區英語學習者語音偏誤特徵與自動標注系統構建(負責人:胡方)

我國的英語教育十分重視詞彙、語法等語言形式,而對語音、語調的作用重視不夠,從而導致我國英語學習者發音不準確,語調不連貫,難以用英語進行口語交流。建立中國英語學習者語音庫,依據聲學指征分析學生的英語發音,不僅可以彌補單純依靠聽辨感知學習語音的不足,也為語音學、音系學及二語語音習得研究提供全新的研究視角,對二語習得研究、外語教學和電腦輔助教學系統具有重要的理論價值和實際意義。在方言區英語學習者語音庫基礎上,課題組陸續開展了語音偏誤分析,取得了一批階段性成果。

2.1 東北方言區課題組語音研究

對東北方言區英語學習者的語音偏誤特徵進行聲學研究,主要從音段和超音段兩個層面進行。音段層面考察輔音和母音的發音偏誤。輔音我們用嗓聲起始時間(VOT),強頻集中區等聲學參數考察。母音用第一、第二或者第三共振峰等參數考察。超音段層面主要考察學習者在短語和句子層面的發音特徵,包括重音分佈、停頓、語調短語切分和邊界調類型等。我們將東北方言區發音人的聲學參數與標準英語發音人的聲學參數進行系統的對比分析,從而發現學習者聲學特徵與標準英語發音人的聲學特徵之間的差異,找出學習者的發音偏誤,進而探討普通話以及東北方言的某些特殊音段特徵如何影響學習者成功習得英語的母音和輔音,方言聲調系統以及普通話聲調系統如何影響學習者正確習得英語語調。

2.2 山東方言區語音研究

山東方言區英語學習者語音庫是目前在全國單方言區建庫人數最多的,其研究的切入點也比較有規律性。在語音習得、聲調習得以及英漢語音對比方面都有涉及。我們也將研究的成果與其他方言區進行交流,如和東北方言區英語學習者語音庫互換研究成果,交流所開展的研究工作,並就山東方言語音習得特點與東北方言區英語學習者習得特點進行對比,以期發現異同。同時,我們還共用了目前各自庫中所有的本族語者語音資料。

目前我們已對山東方言兩區四片的英語學習者的四個前母音習得做了較為全面的研究,與美國本族語者的發音進行了對比,初步總結出了山東方言英語學習者語音學習的規律和特點。研究採納了實驗語音手段,得出的結果具有客觀性與可信性。

2.3 寧波方言區語音研究

分佈在浙江寧波、舟山地區的寧波方言以其“石骨鐵硬”的發音風格、個性化的語音特徵和生動形象地表達方式成為吳語太湖片區具有代表性的重要方言。對現行語言政策和語言生態環境下的方言區英語學習者而言,來自母語因素的影響更為複雜。近年來,隨著語言研究視角的擴展和傳統語音教學困境的凸顯,對學習者獨特的語音系統和節奏韻律模式描述和解讀獲得了更多的關注。

初步研究成果顯示,寧波方言區英語學習者的語音產出從音段、韻律節奏到語調型層面與英語本族語使用者間存在系統的差異。仲介語體現出的語音特徵明顯受到學習者母語,特別是方言方音的遷移。語料庫技術和實驗方法的介入不僅使語音教學和研究從對傳統“口耳之學”的感性經驗的依賴轉向基於大資料統計的理性分析成為可能,還可將研究得發現充分地融入教學實踐環節,借助參數的對比和試錯,對語音偏誤加以有效的預判,突出教學重點,形成針對性的教學策略,服務於以提高溝通效能為核心的方言區的英語語音教學。

2.4 長沙方言語音研究

長沙方言是新湘語的代表方言,屬於長益片長株潭小片,主要使用于長沙市區和長沙縣。由於果攝字母音的高化演變,長沙方言的母音系統屬於偏後型母音三角(貝先明,2008),其後母音與屬典型母音四角的美式英語具有更大的相似度,而前母音與美式英語具有更小的相似度,因此是母音偏誤較為理想的研究材料。

初步研究成果顯示,長沙方言區英語學習者難以區分英語中的/i-ɪ/、/ʊ-u/等相似母音對,且與英語本族語者在個體母音發音上有較大差異(如下圖)。

長沙被試在發英語/ʊ u/時傾向於用母語中的/u/代替;同時,/i/ /ɪ/ /ɔ/在聲學空間的高低維度上與方言中的相似母音無明顯差異。研究結果對課堂英語教學有一定的指導意義:傳統的英語語音教學受對比語言分析理論影響,著重於母語和外語發音有差異的部分,但本研究結果為語音學習模型提供了實證支援,發現學習者產出與母語相似的英語母音時,會因範疇構建過程的同化機制產生偏誤。因此,教學的側重點應轉移到相似母音上,落實到長沙地區英語語音教學中,則應重點關注/i u ʊ ɔ/的發音。

2.5 方言區英語學習者韻律自動標注系統構建研究

韻律標注包括韻律邊界和音高事件(重音、邊界調等)的標注。隨著語料庫規模的增大,人工標注的工作量急劇增加,標注成本較大。此外,韻律標注具有一定的主觀性,保證不同標注人員之間標注結果的一致性較為困難。因此,採用電腦技術自動而準確地進行語料的標注是本課題的一個重要研究工作。

課題組針對韻律邊界的標注,提出了基於隱瑪律科夫模型(Hidden Markov Model; HMM)聲學建模與狀態解碼的自動韻律標注方法。採用該方法用於韻律自動標注的優勢包括:在基於聲學特徵分佈進行韻律邊界標注時可以充分考慮其他已知標注資訊對於分佈參數的影響;通過整句解碼的方式確定韻律邊界標注結果,考慮了句中不同位置處韻律邊界標注間的相關性;使用與語音辨識類似的演算法框架,可以借鑒語音辨識中較為成熟的模型訓練與解碼演算法。

在具體實現中:提出基於窮舉搜索的韻律短語邊界自動標注方法,分析了合成系統中不同特徵與上下文資訊對韻律標注性能的影響,驗證該方法的可行性;在此基礎上又提出了基於維特比搜索的韻律短語自動標注方法,在保證標注結果準確性的前提下,提高了標注的效率;進一步提出了結合n-gram先驗分佈的韻律短語自動標注方法,通過利用文本層面的先驗知識,進一步提高了韻律標注的準確性,在標準英語庫Boston University Radio News Corpus和Blizzard Challenge 2007英文語料庫上分佈取得了79.6%和81%的標注F-score。

課題組將利用方言區英語學習者語音庫,對現在提出的韻律邊界分類模型進行改進。

子課題3:中國方言區英語學習者語音與音系學習機制研究(負責人:宋大為)

課題組開展了英語學習者的母音產出、發音和感知空間關係的研究。目前完成了資料收集和初步的分析。創新在於從三個空間維度,對英語學習者的語音發音生理、聲學、和感知資料進行採集和分析,深入探索學習者的語音習得機制。本項目利用電磁發音儀釆集學習者的英語和母語的母音發音運動資料,以及英語本族語者的運動資料,用科學、直觀的方法對比和分析不同發音人的生理發音特點,科學構建發音人在母音發音中的舌位運動空間。並同時結合感知實驗的多模態研究方法,深入和全面地挖掘學習者的音位範疇習得特徵。

3.1 L1 和L2的EMA英語資料獲取

本項目利用電磁發音儀(Electromagnetic Articulography; EMA)釆集學習者的英語和母語的母音發音生理運動資料,以及英語本族語者的運動資料,用科學、直觀的方法對比和分析不同發音人的生理發音特點,科學構建發音人在母音發音中的舌位運動空間。另外,基於聲學資料,即母音的共振峰F1、F2和F3數值,構建聲學母音圖。通過對比中國學習者和英語本族語者的英語母音聲學特徵、以及學習者的母語方言聲學特徵,分析和歸納學習者的英語母音偏誤特點,探究英語產出和方言母語間的關聯性。

EMA的採集系統為德國引進的Carsten AG500儀器,錄音取樣速率為200赫茲。每次錄音共需用到9個感測器(如下圖),其中6個感測器分別要粘貼在每位發音人的舌根、舌體、舌尖、下齒齦、下唇和上唇位置;另外3個感測器分別粘貼在發音人的鼻樑、左耳根和右耳根位置,作為對資料進行頭部校準處理的參考點,資料釆集時要求發音人語速較慢,發音清晰。

電磁發音儀可以讓人們更直觀地跟蹤發音時舌位元的運動情況。通過構建發音人的母音發音生理空間對比英美本族語者和學習者的舌頭運動情況(如下左圖)和舌頭位置(如下右圖)。

3.2 感知實驗和資料處理

本部分研究將學習者的發音語料作為感知實驗中的刺激音,並請25名英語母語者(包括英國人和美國人)參與對學習者的母音發音進行了聽辨實驗和評分實驗。感知實驗研究用Eprime2.0軟體設計和完成。

感知實驗1為聽辨實驗,要求英語母語者每聽到一個刺激音後,從備選單詞中,選出所感知到的單詞。實驗2為評分實驗,要求英語母語者對聽到的每個刺激音中的母音發音進行評分。

3.3聲學錄音和資料處理

本部分研究通過中國社科院語言所語音室的專業錄音軟體以44.1 KHZ的取樣速率,採集了發音人的英語發音語料,語料中涵蓋了英語中的18個單雙母音,包括11個單母音/æ/,/ɛ/,/ɑ/,/ʌ/,/u/,/ʊ/,/i/,/ɪ/,/ɔ/,/ɒ/,/ɜ:/和6個雙母音/aɪ/,/ɒɪ/,/eɪ/,/aʊ/,/oʊ/,/ju/。每個母音都在一個真實的英語單音節單詞中,單詞大多都是以阻塞音或摩擦音作為首尾輔音。

通過Praat腳本(熊子瑜2016)自動提取到每個單詞母音穩定段上10個等分點的F1,F2和F3數據。接下來,我們將第3-8點上的F1,F2和F3值分別求均值,作為代表該母音音質的共振峰資料,這樣在一定程度上可以去除音節首尾輔音對母音共振峰的影響。

子課題四:中國方言區英語學習者語音學習策略與應用平臺研究(負責人:顧曰國)

現代資訊技術與課堂教學的整合是我國英語教育改革中的重要問題,新的教學模式實現了(1)以學生為中心,使學習者有了更多自主學習和合作學習的機會;(2)教師利用電腦輔助交流平臺能更好地監測學生的發展,獲取學生的回饋資訊,增強課堂模式的互動性;(3)移動互聯網技術的發展,提高了資源的共用和推廣,使得線上學習成為未來發展趨勢。大城市學校的現代化語音教育手段可以帶動偏遠地區的課堂教學,縮小教學水準上的差距,實現教育公平化。資訊交互平臺的多元化和現代化特徵有利於推動我國的外語教育的改革和發展。

研究創新處在於推動現代化科技成果在教學應用中的實踐,使科技創新更好地服務於社會需求具有重要的理論和現實意義。課堂將3D動態發音視覺化模型、自動語音評測系統、訓練語音感知和產出的APP軟體應用於語音教學課堂中,促進傳統課堂向多元化、多模態的發展。學習者在多模態的資訊交流平臺和類比語言情境中,學習、體驗和實踐知識,豐富語音課堂的教學模式,調動學生的積極性,克服傳統語音課堂中形式單一、內容抽象、學生缺乏興趣的問題。為未來更多現代資訊技術與課堂教學的融合嘗試提供參考。在立項的1年多時間裡,課題組完成了兩方面工作。

4.1 3D發音建模

本研究擬以我國各個方言區的大學英語學習者的語音特徵為考察物件,利用電磁發音儀EMA(AG500)和核磁共振MRI的三維舌位元空間資料,探討各個地區英語學習者的發音問題,構建我國首批面向英語學習者的三維發音生理模型,為二語學習者的發音問題提供視覺化資訊回饋(visual feedback),打破目前語音評測體系中只提供評分,而沒有回饋的局限性,進而發展語音評測的有效性和視覺化,也為開發面向教育應用的視覺化語音訓練系統和平臺提供有價值的參考。

目前完成了部分MRI資料和EMA資料的收集。使用電磁發音儀,在發音器官表面粘貼了感測器(用於記錄發音過程中局部發音器官的位置資訊),採集了同步的語音信號和感測器的位置資訊,用核磁共振設備採集了同一發音人的發音器官(舌、下顎、上顎等)的MRI形態數據。

在此基礎上,建立了一個虛擬實境系統,該系統能即時將輸入的語音信號轉換成高真實度的三維舌頭運動序列。利用深度神經網路建立從語音信號到感測器位置的映射關係;用MRI形態資料,用有限元方法建立了一個舌的生理模型;將這兩個模型依次串聯起來,得到了發音過程中舌頭即時運動的虛擬實境系統。實驗表明,該系統能夠依據輸入的語音信號生成高真實度的發音器官的運動序列。

4.2 “語音教學與測試平臺”建設

按照國家社科基金重大專案的研究計畫和進度安排,第四子課題組於2016年初開始啟動“語音教學與測試平臺”建設的調研和研發工作。

經過細緻論證,該平臺將主要著眼於學習者語言聽說能力的訓練和培養,以富文本形式向學習者全方位呈現字、詞、句、語篇等語音材料的標注資料內容,並具備語音播放、錄製和聲學參數動態呈現等基礎功能,還將支持跟讀、混播、對比、評測等輔助學習功能。

目前該平臺已完成了前期的技術調研、方案設計和程式開發等基礎工作,並初步實現了xReader系統,可用於語音訓練和跟讀學習(操作介面如下圖)。

xReader可呈現的資料內容:文本方面,以篇章材料為例,xReader目前可以呈現語句、短語、詞語、音標等不同層級的標注內容及其翻譯資訊,還可通過字型大小大小、字元顏色變化等手段來凸顯相應的文字內容,如語句重音、詞重音等;聲學參數方面,xReader目前可以動態分析並呈現寬頻語圖、窄帶語圖、音高圖和波形圖等資料內容。

為便於用戶的學習和跟讀,xReader提供了豐富的語音播放方式:

針對清單內容主要有兩種播放方式:(1)順序播放,對清單中選定的內容從上往下依次播放,用戶可自由設定中間的停頓時間;(2)隨機播放,對清單中選定的內容按照隨機順序進行播放,使用者可自由設定中間的停頓時間。

針對語句內容,不僅可以播放全句內容,也可以根據需要選定其中的某個短語或詞語進行播放,還可以在波形圖或語圖上自由選定某個聲音片段進行播放。

針對使用者錄音內容主要有三種播放方式:(1)混合播放,混合播放語句的原始聲音和用戶聲音,以便於用戶對比;(2)僅播放原始聲音;(3)僅播放用戶聲音。另外,該程式還支援將原始聲音和用戶聲音拼接起來同屏顯示與播放。

xReader可支援錄音與採集:該工具支持學習者按句錄音,並可自動保存使用者語音資料,從而實現學習者語音資料的動態集采功能。

2、調查研究及學術交流情況

為了對獲取的語料進行標注以便開展深入的分析,社科院專家和學者到各個子課題組交流訪問,介紹語料標注和分析技術,並多次組織人員參加社科院主辦的學術交流和專題研修活動,啟動聯合指導模式,定期派出學生到社科院訪學,參與課題研究。課題組成員先後參與相關國內學術會議、專題研討和研修活動共32次,成功申報科研專案共7項,教研課題共1項,指導學生成功申報相關課題共3項(均已結題)。

課題組成員在期刊、國際和國內重要會議上、論壇和沙龍發表研究成果32篇,其中英文12篇,EI檢索8篇,CSSCI檢索2篇,指導與本課題相關碩士畢業論文共12篇,共1篇獲得優秀論文獎。

3、學術會議與學術交流活動

課題組參加學術交流列表:

2016年6月,胡方,Speech Prosody 2016。

2016年7月,聞欣怡、賈媛,第十二屆全國語音學學術會議。

2016年7月,王宇、賈媛、李愛軍、徐亮,國際中國語言學學會第24屆年會。

2016年7月,唐穎、潘淑芳,第十二屆全國語音學學術會議。

2016年7月,唐穎、董倩,第十二屆全國語音學學術會議。

2016年7月,唐穎、張麗娜,第十二屆全國語音學學術會議。

2016年7月,周曉鳳、李丹丹,第十二屆全國語音學學術會議。

2016年7月,周曉鳳、楊迪,第十二屆 全國語音學學術會議。

2016年7月,周曉鳳、劉珊珊,第十二屆全國語音學學術會議。

2016年9月,翟紅華、王妃妃、李愛軍、趙瑾,第五屆中國英語語音教學研究國際研討會。

2016年9月,Qian Chen、Zhenhua Ling, Chenyu Yang, Lirong Dai,Interspeech 2016。

2016年9月,Xinyi Wen、Jia Yuan,Interspeech 2016。

2016年9月,Hongwei Ding、X. Xu,Interspeech 2016。

2016年9月,Fang Hu, Chunyu Ge,Interspeech 2016。

2016年9月,Liping Xia, Fang Hu,Interspeech 2016。

2016年9月,Hu, W., Hu, F., Jin, J.,Interspeech 2016。

2016年9月,周曉鳳、張景哲,語言文化的影響與變遷國際學術研討會。

2016年9月,唐穎、魏召召,語言文化的影響與變遷國際學術研討會。

2016年9月,周曉鳳、範曉丹,海峽兩岸外語教學研討會。

2016年9月,唐穎、魏召召,第五屆中國英語語音教學研究國際研討會。

2016年9月,李愛軍、林茂燦,第三屆韻律語法研究國際研討會。

2016年12月,李愛軍、林茂燦,應邀到天津大學外國語言與文學學院做特邀報告:漫談語音的相似性英漢語調的“同”和“異”》。

2016年10月,王宇、賈媛、李愛軍、徐亮,Oriental-COCOSDA 2016。

2016年10月,丁紅衛,First Symposium on Linguistic Diversity in China。

2016年11月,丁紅衛,“新資訊技術下高校教學變革與革新”學術研討會

2016年12月,翟紅華、趙瑾、李愛軍、賈媛,山東國外語言學研究會年會。

2017年3月,Qiang Fang, Ran Luo, Jianguo Wei, Wenhuan Lu, Weiwei Xu, Yin Yang,IEEE VR 2017。

2017年10月,Yuan Jia, Wang Yu, Aijun Li, Liang Xu, Dawei Song,第14屆全國人機語音通訊會議。

2017年10月,賈媛、王宇、李愛軍、徐亮,第14屆全國人機語音通訊會議。

組織學術會議列表:

2016年10月,UPenn-SJTU Symposium on Speech Science and Computational Linguistics

2017年6月,上海交通大學外國語學院2017年音系學與實驗音系學高級研討會

2017年7月,上海交通大學外國語學院2017年語音學與大腦神經機制研討會

2017年10月,國際言語產出會議,將組織專題研討:Production and Perception of Tone in Language Acquisition

4、成果宣傳推介情況

專案組積極在專案成語之間和國際上共用與推介資料庫和研究成果。其一,社科院專家與各個方言課題組和各個子課題組進行密切溝通,進行錄音和標注資料的培訓,保證收集資料的品質、資料標注的規範性和可靠性。其二,各個方言課題組共用公用基礎資源,並交流研究成果。其三,積極在國際上推廣研究成果、共用資源。課題組積極組織國際研討會,並在在國際會議上發表論文,並且參加每年O-COCOSDA組織的亞洲英語學習者資料庫和語音研究研討(AESOP-SIG),並將在亞洲範圍共用基礎資源部分資料。

二、 研究成果情況

1、山東方言兩區四片的英語學習者前母音習得研究

翟紅華、王妃妃、李愛軍、趙瑾(2016)山東方言區英語學習者英語母音音段習得的實驗語音研究——以前母音/i/、/ɪ/、/ɛ/、/æ/為例,第五屆中國英語語音教學研究國際研討會。

我們對山東方言兩區四片的英語學習者四個前母音/i/、/ɪ/、/ɛ/、/æ/習得進行了實驗語音研究。具體實驗語料由兩部分組成,山東學生和美國本族語者的朗讀語料。語料全部來源我們所建的山東方言區英語學習者語音庫。包括英語和漢語語料。本研究從山東學生的朗讀語料和美國本族語者的朗讀語料中,隨機抽取了64位山東學生(每個城市兩男兩女,年齡20-24歲)和4位美國學生(兩男兩女,年齡20歲左右)的語料作為研究物件。山東發音人分別是來自山東某高校非英語專業的本科生和研究生。在入學之前他們一直生活在方言區,方言是他們日常交流語言。他們的英語學習特別是發音在一定程度上受到方言的影響。抽取的東濰區學生的語料包含兩部分:英語語料和方言語料。英語語料選取以濁輔音/b/、/d/、/g/為首輔音,目標母音/i/、/ɪ/、/ɛ/、/æ/居中,爆破音結尾的單詞,見下表。

為了研究山東東濰區學生英語發音受方言影響的程度,本研究還選取了這些發音人的方言語料。方言語料是以/b/、/d/、/g/為聲母,以韻母/i/和/ɛ/結尾的單字構成,見下表。

通過對比山東和美國兩地學生的母音共振峰F1和F2,發現山東學生習得母音/i/和/æ/要優於母音/ɪ/和/ɛ/,而且山東學生試圖用方言/i/和/ɛ/來代替英語母音/ɪ/和/ɛ/的發音。這主要是受到方言的影響:山東方言對母音/i/的習得產生了正遷移影響,而對母音/ɪ/和/ɛ/的習得產生了負遷移影響。實驗資料真實有效,具有客觀性,一改以往主觀定性的研究,對英語語音教學具有參考價值,同時對學生自身的語音學習有很大的幫助,對於北方官話區英語學習者語音的學習也有一定的借鑒作用。

2、寧波方言區英語學習者的單母音聲學特徵分析

王宇、徐亮、賈媛、李愛軍(2017)基於英漢語對比的單母音聲學特徵分析,《寧波大學學報》,01期。

該研究以言語學習模型為支撐,利用聲學語音實驗的方法,在音段層面考查了10位來自寧波方言區英語學習者11個英語單母音(如下左圖),並對照寧波方言和漢語普通話相似的3個頂點母音/i,u,a/語音產出的共振峰特徵(如下右圖),推論方言和普通話對英語發音可能存在的影響。研究發現:方言區發音人與英語本族語者之間的英語單母音產出存在系統性差異;寧波方言及普通話語音體系對方言區學習者的英語語音產出具有明顯的負向遷移。

研究的發現為ESL語音教學的支撐理念(如言語學習模型)提供了數理上的依據,統計結果除了顯示出發音人與英語母語者母音產出差異和趨勢,還對語音遷移中相似音位間的影響力做出了推斷,有助於語音教師在語音偏誤預判得基礎上把握教學重點,制定有效的應對策略,克服母語的遷移效應。

3、影響外語口音感知和可懂度的聲學及發音資訊探究

智娜(2017)《影響外語口音感知和可懂度的聲學及發音資訊探究》,中國社會科學院語言研究所博士後報告。

本研究以我國北京方言區的大學英語學習者為考察物件,通過三項實驗:(1)聲學實驗;(2)英語本族語者對學習者發音的感知實驗;(3)借助電磁發音儀(EMA)的母音生理發音實驗,來探討影響學習者外語口音和發音可懂度的相關聲學、感知及發音特徵,以及這三個維度之間的對應關係。本研究分別對比了學習者和英國人、學習者和美國人在母音聲學層面上的共振峰特徵和時長特徵,以及在發音生理層面上的舌尖、舌體、舌根、下唇、下齒齦的運動特徵情況。我們將聲學和生理的7個參數同英語本族語者的感知結果相對應,發現聲學層面上的共振峰特徵可以顯著影響英語本族語者對母音可懂度和口音的感知,而時長特徵對可懂度和口音的影響不顯著;在生理層面上,舌體和舌根的運動變化對母音可懂度和口音的感知影響最為顯著,其他發音器官的影響不顯著。本研究在聲學、發音、和感知三個維度上的研究資料可以為外語學習者的母音發音提供有效的糾正型回饋意見。學習者要降低外語口音對母音發音的可懂度影響,要練習和區別各個母音,尤其是對立母音在發音動作上的區別,而非時長特徵上的差異;另外,教學中有必要引進視覺化的發音工具和模型,對可懂度較低的母音有針對性地開展舌體和舌根的發音運動模仿和練習,提高外語的發音品質。

4、自動韻律邊界預測研究

Chen, Q., Ling, Z., Yang, C., Dai, L. (2015). Automatic phrase boundary labeling of speech synthesis database using context-dependent HMMs and N-Gram prior distributions. Interspeech.

論文提出了基於隱瑪律科夫模型(Hidden Markov Model,HMM)聲學建模與狀態解碼的自動韻律標注方法。採用該方法用於韻律自動標注的優勢包括:在基於聲學特徵分佈進行韻律標注時可以充分考慮其他已知標注資訊對於分佈參數的影響;通過整句解碼的方式確定韻律標注結果,考慮了句中不同位置處韻律標注間的相關性;使用與語音辨識類似的演算法框架,可以借鑒語音辨識中較為成熟的模型訓練與解碼演算法。在具體實現中:首先提出基於窮舉搜索的韻律短語邊界自動標注方法,分析了合成系統中不同特徵與上下文資訊對韻律標注性能的影響,驗證該方法的可行性;在此基礎上又提出了基於維特比搜索的韻律短語自動標注方法,在保證標注結果準確性的前提下,提高了標注的效率;進一步提出了結合n-gram先驗分佈的韻律短語自動標注方法,通過利用文本層面的先驗知識,進一步提高了韻律標注的準確性,在Boston University Radio News Corpus和Blizzard Challenge 2007英文語料庫上分佈取得了79.6%和81%的標注F-score。

5、發音視覺化建模研究

Fang, Q., Luo, R., Wei, J., et al. (2017). Acoustic VR in the mouth: A real-time speech-driven visual tongue system. IEEE VR.

“一帶一路”國家重大發展戰略除了要求國內的資金、技術走出去,同時也需要大量聽、說、讀、寫能力全面的語言人才為“走出去”戰略服務。發音的準確與否是語言能力評價的重要指標之一。然而,發音往往是語言學習的薄弱環節。有些學習者的母語中沒有目的語言的某些語音單元,造成學習者僅僅從聽覺上無法意識到語音單元的差異,給學習這些語言的發音造成很大困難。可視語音技術能生成與語音信號同步的發音器官運動視頻資訊,並以視頻的方式回饋學習者發音時發音器官的位置資訊,能夠説明學習者克服發音學習中的上述困難,提高語言學習的效率。

在發音學習過程中,發音器官的運動資訊對於提高學習的效率有積極意義。然而,除了唇的運動能直接觀測外,其它的發音器官通常都位於聲道內部,很難直接觀察。因此,即時捕捉發音過程中舌頭的快速三維運動是一件十分困難的事情。本研究採用如下方法建立了一個新的虛擬實境系統。該系統能即時將輸入的語音信號轉換成高真實度的三維舌頭的運動序列。首先,我們使用EMA在發音器官表面粘貼了感測器(用於記錄發音過程中局部發音器官的位置資訊),並採集了同步的語音信號和感測器的位置資訊,並基於此資訊利用深度神經網路建立從語音信號到感測器位置的映射關係。其次,我們用MRI採集了同一發音人的發音器官(舌、下顎、上顎等)的形態數據。基於上述發音器官的形態資料,我們用有限元建立了一個舌的生理模型。該模型充分考慮了舌頭的非線性形變,舌頭形變過程中的體積不變性,以及舌頭在運動過程中與周圍器官(下顎、上顎等)的碰撞。為了提高模型的即時性,我們採用了空間減縮的方法用在低維度空間中計算舌頭的形變。最後,我們將前兩部建立的模型依次串聯起來,得到了本文描述的發音過程中舌頭即時運動的虛擬實境系統(如下圖)。實驗表明,該系統能夠依據輸入的語音信號生成高真實度的發音器官的運動序列。

6、英語語調與漢語語調的對比研究

林茂燦、李愛軍(2016)英漢語調的相似性與對外漢語語調教學,《中國語音學報》第7輯。

本文為研究英語語調與漢語語調之間在聲學或語音表現上的相似性,從“相似不等於相同,相似是客觀事物存在的‘同’和‘異’矛盾的統一”(張光鑒,1992)的相似性定義出發,觀察和研究英語語調和漢語調調之間哪些是“同”,哪些是“異”。漢語是聲調語言,英語是非聲調語言。我們看到英語與漢語之間的重讀凸顯及疑問和陳述邊界調,都存在語音表現和語音特徵的“同”和“異”,因而,英漢語調有相似性。

“心智和思維產生於人跟外界的相互作用,在這個相互過程中,人通過自己的身體獲得經驗,這個經驗用“體驗”稱之為最合適。“心寓於身”還有一層意思是概念和概念系統的形成要受人類身體構造的制約。例如人對各種顏色的分辨很大程度上是由人體視網膜的生理構造決定的。”(沈家煊,2005)我們認為,英漢語調的相似性有其認知和生理上的理據。

這篇論文應邀作為大會報告在第三節漢語韻律語法國際研討會上報告。

課題組供稿

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示