“資料科學與大資料技術”成為2018年最熱門的新增本科專業。 本文通過介紹美國羅切斯特大學格爾根資料科學院這一案例, 為高校管理者提供與資料科學相關的新興專業從籌建到落地的思路。
2018年3月, 教育部公佈了高等院校新增與撤銷本科專業結果。 其中新增專業2311個, 最熱門的就是“資料科學與大資料技術”, 學制四年, 授予工學或理學學位。 從2015年教育部增設這一專業以來, 北京大學、對外經濟貿易大學和中南大學於2016年率先通過審批。 2017年這個數字上升到32個。 2018年該專業呈現“井噴”狀態, 翻了近8倍, 三年共計283所高校增設此專業。
從地域分佈來看, 覆蓋29個省、直轄市和自治區。 河南最多, 達21所;其次是北京, 共19所;廣東與安徽並列第三, 各有15所。 從院校類型來看, 既包括原“985”與“211”的研究型大學36所, 也包括常熟理工學院等應用本科、上海紐約大學等中外合作辦學院校、西安歐亞學院等民辦高校, 以及北京理工大學珠海學院等獨立學院。
可見在大資料時代的背景下, 在全國各地, 各種類型的高校都開始打造這一新興專業, 為資料科學相關的國家戰略提供人才支撐。 增設該專業究竟需要哪些硬體、軟體?怎樣獲取政府與企業等多方支援?與學校已有專業如何協調?培養方案如何制定?
本文通過剖析美國羅切斯特大學格爾根資料科學院的本科專案,
籌建準備
2011年麥肯錫全球研究所預測, 到2018年, 美國需要14萬到19萬資料科學家, 還需要150萬能夠用大資料進行決策的管理者與分析師。 2012 年, 《紐約時報》發表《大資料時代》一文, 標誌著對資料科學的關注進入更廣闊的公共視野。 2013年10月, 羅切斯特大學召開大資料論壇, 時任校長塞林格曼宣佈將籌集5000萬美元興建新的資料科學研究中心, 致力於大資料研究領域, 填補麥肯錫預測的人力缺口。 這成為羅切斯特大學五年(2013—2018)戰略規劃的首要目標。 如此快速的反應, 加上明確的籌款目標及規劃週期, 讓人們對這一新研究中心的籌備翹首以待。
需要指出的一點是, 在此之前的五年(2008—2013), 羅切斯特大學已經陸續在資料科學相關領域投入了5000萬美元,
研究團隊的實力也不容小覷。 羅切斯特大學研究人員利用大資料建立模型, 預測傳染病的傳播, 跟蹤分析輿情並推斷行星存在。 在這五年裡, 共計100多名研究人員獲得約3億美元的資料科學研究經費。 由此可見, 籌建資料科學對羅切斯特大學而言先後長達十年, (已投入加上待籌集的)預算共計1億美元,
多方支持
儘管羅切斯特大學是一所私立高校, 但是它獲得了所在地紐約州政府的支持。 這種支援集中體現在“資料科學卓越中心”。 此卓越中心的經費來自紐約州政府的經濟發展局, 職能類似於國內的省級發改委。 中心設置在新建的格爾根資料科學院, 覆蓋製藥與健康、造影與光學、能源與環境、食品與農業、國防及國家安全、經濟與金融六大領域,
舉例來看, 只要是在紐約州註冊的與資料科學相關的公司, 就可以通過該中心獲得羅切斯特大學研究團隊的一對一諮詢, 招聘實習生或全職分析師, 把實驗室裡的科研成果進行商業轉化等。 可見該中心還肩負著創新創業的功能。 在2014年向紐約州政府提交的報告裡, 羅切斯特大學預測格爾根資料科學院將在十年內創造460個工作機會, 並獲得 5.3 億美元科研經費, 學校用這些數字打動了紐約州政府的“心”。
如果說卓越中心的服務主要吸引初創企業, 那麼像IBM、施樂等資深企業又能從格爾根資料科學院獲得哪些增值服務?還是以前面提到的超級電腦Blue Gene/Q為例, 羅切斯特大學的健康科學計算創新中心是其重要使用平臺之一。在使用過程中,該校電腦學院的研究團隊為安全且高效的平行計算做出貢獻,促進了一種名為“交易記憶”新方法的出現,幫助Blue Gene/Q在2011年成為世界上首台實現硬體交易記憶的電腦。這種校企合作的科研突破會繼續在新的資料科學院裡出現。
除此之外,人力開發也是校企合作在資料科學領域的重任之一。羅切斯特大學曾為施樂的工程師們定制資料科學的碩士課程,還在2015年獲得美國國家科學基金320萬美元的撥款,用來培養既懂電腦科學,又懂認知科學的博士。其中一部分博士將在畢業後任職于資深企業的研發部門,填補產業界對資料科學高端人才的需求缺口。
項目落地
從建設力度來看,格爾根資料科學院已於2017年底搬入了新落成的維格曼斯大樓,並已新聘14位教研人員。值得注意的是,不管是教學樓還是科研團隊,資料科學都與其他院系共用。在新的維格曼斯大樓裡,除了格爾根資料科學院,還有電腦系與化學工程系。新聘教研人員除了擅長資料科學,還分別隸屬於生物資訊、生物醫學工程、腦與認知科學、商業與經濟、電腦科學、數學與統計、物理和政治科學等學科。
這種空間共用與團隊交叉突出了資料科學的跨學科本質,也反映了這一新興專業之所以“熱門”,就在於它不限於工科,讓以理科(數學、生物、物理等)或社科(政治、經濟、心理等)為優勢學科的高校也可一展所長,釋放潛力。
資料科學這種跨學科本質在本科培養方案裡也有所體現。以格爾根資料科學院的本科專案為例,該專案可授予文學或理學學士學位。除了電腦與統計之外,學生還要選擇商業、生物、地球與環境科學、政治科學或其他一個學科對資料科學加以應用。
從具體的培養方案來看,微積分、離散數學、Java程式設計、資料結構是入門的基礎課,核心課程包括進階的數學與程式設計(線性代數、概率、統計、資料採擷、資料庫系統、人工智慧、演算法設計等),學生根據選擇的應用學科完成畢業設計。此外,拿理學學位的學生比文學學位的多修一些補充課程,例如機器學習、自然語言處理、時間序列等。因為培養方案整體偏理工科,學生還需要選修一門人文和一門社科課程,並強化寫作能力(例如完成並發表一篇研究論文或技術報告)。通常情況下,大一新生以基礎課為主,大二與大三完成核心課程、補充課程並滿足應用學科的要求,大四以畢業設計為主。
遺憾的是,雖然羅切斯特大學的起步早,但隨著塞林格曼校長在2018年年初黯然離職,籌款目標至今還差2200萬美元。下一任校長是否繼續把資料科學當作該校的戰略重點?格爾根資料科學院是否能創造出令政府等利益相關方滿意的就業機會與科研效益?這些都未可知。
基於羅切斯特大學格爾根資料科學院的案例,我們可以看到專業建設所需的多年積累,既有硬體投入,又有團隊組建;也可看到通過預期的產業效益獲得多方支援,既有政府經費,又有企業合作;還可看到資料科學的跨學科本質對專案落地的幫助,既可共用空間與師資,又可設計出“基礎+核心+應用+補充+畢設”的培養方案。這些經驗僅供國內高校在籌建“資料科學與大資料技術”專業時參考。
主要參考文獻:
[1]教育部2017年本科專業備案與審批結果
[2]羅切斯特大學格爾根資料科學院網站
[3]Lohr, S.. The Age of Big Data, The New York Times, 2017-02-11.
聲明:未經授權,不得轉載。轉載請聯繫麥可思研究編輯部(微信搜索18602824882)。
羅切斯特大學的健康科學計算創新中心是其重要使用平臺之一。在使用過程中,該校電腦學院的研究團隊為安全且高效的平行計算做出貢獻,促進了一種名為“交易記憶”新方法的出現,幫助Blue Gene/Q在2011年成為世界上首台實現硬體交易記憶的電腦。這種校企合作的科研突破會繼續在新的資料科學院裡出現。除此之外,人力開發也是校企合作在資料科學領域的重任之一。羅切斯特大學曾為施樂的工程師們定制資料科學的碩士課程,還在2015年獲得美國國家科學基金320萬美元的撥款,用來培養既懂電腦科學,又懂認知科學的博士。其中一部分博士將在畢業後任職于資深企業的研發部門,填補產業界對資料科學高端人才的需求缺口。
項目落地
從建設力度來看,格爾根資料科學院已於2017年底搬入了新落成的維格曼斯大樓,並已新聘14位教研人員。值得注意的是,不管是教學樓還是科研團隊,資料科學都與其他院系共用。在新的維格曼斯大樓裡,除了格爾根資料科學院,還有電腦系與化學工程系。新聘教研人員除了擅長資料科學,還分別隸屬於生物資訊、生物醫學工程、腦與認知科學、商業與經濟、電腦科學、數學與統計、物理和政治科學等學科。
這種空間共用與團隊交叉突出了資料科學的跨學科本質,也反映了這一新興專業之所以“熱門”,就在於它不限於工科,讓以理科(數學、生物、物理等)或社科(政治、經濟、心理等)為優勢學科的高校也可一展所長,釋放潛力。
資料科學這種跨學科本質在本科培養方案裡也有所體現。以格爾根資料科學院的本科專案為例,該專案可授予文學或理學學士學位。除了電腦與統計之外,學生還要選擇商業、生物、地球與環境科學、政治科學或其他一個學科對資料科學加以應用。
從具體的培養方案來看,微積分、離散數學、Java程式設計、資料結構是入門的基礎課,核心課程包括進階的數學與程式設計(線性代數、概率、統計、資料採擷、資料庫系統、人工智慧、演算法設計等),學生根據選擇的應用學科完成畢業設計。此外,拿理學學位的學生比文學學位的多修一些補充課程,例如機器學習、自然語言處理、時間序列等。因為培養方案整體偏理工科,學生還需要選修一門人文和一門社科課程,並強化寫作能力(例如完成並發表一篇研究論文或技術報告)。通常情況下,大一新生以基礎課為主,大二與大三完成核心課程、補充課程並滿足應用學科的要求,大四以畢業設計為主。
遺憾的是,雖然羅切斯特大學的起步早,但隨著塞林格曼校長在2018年年初黯然離職,籌款目標至今還差2200萬美元。下一任校長是否繼續把資料科學當作該校的戰略重點?格爾根資料科學院是否能創造出令政府等利益相關方滿意的就業機會與科研效益?這些都未可知。
基於羅切斯特大學格爾根資料科學院的案例,我們可以看到專業建設所需的多年積累,既有硬體投入,又有團隊組建;也可看到通過預期的產業效益獲得多方支援,既有政府經費,又有企業合作;還可看到資料科學的跨學科本質對專案落地的幫助,既可共用空間與師資,又可設計出“基礎+核心+應用+補充+畢設”的培養方案。這些經驗僅供國內高校在籌建“資料科學與大資料技術”專業時參考。
主要參考文獻:
[1]教育部2017年本科專業備案與審批結果
[2]羅切斯特大學格爾根資料科學院網站
[3]Lohr, S.. The Age of Big Data, The New York Times, 2017-02-11.
聲明:未經授權,不得轉載。轉載請聯繫麥可思研究編輯部(微信搜索18602824882)。