您的位置:首頁>科技>正文

技術提取智慧 領銜大資料時代

人工智慧的終極目標是讓機器能夠像人一樣思考和做事。 但是如果機器不能夠理解人的語言, 那麼就不可能實現人機交互, 更不可能自主學習。 毫無疑問, 有關自然語言處理的研究對於解放人類大腦, 是繼工業革命解放了人類的身體之後的又一次解放。 自然語言處理的誘人前景正使得它越來越成為研究的熱點。

孜孜愛國情

李辰專注於人工智慧領域的自然語言處理新演算法及其在生物文本挖掘領域的應用的研究由來已久。 2005年李辰加入位於英國劍橋的全球著名的生物資訊研究所—歐洲生物資訊研究所(EMBL-EBI)以來,

一直從事生物醫學資料採擷的研究、開發工作, 尤其是基於自然語言處理自動從文本中提取生物醫學知識。 2010年, 他從眾多候選者中脫穎而出, 被英國劍橋大學授予海外Fellowship。 同年, 他通過了EMBL-EBI的嚴格審核, 科研專案被採納在EMBL-EBI進行, 成為一位來自非歐盟國家的入選者。 在獲得劍橋大學博士學位後, 他受邀加入麻省理工學院電腦與人工智慧實驗室, 在實驗室前任主任、美國工程院院士Victor Zue的團隊任博士後研究員, 繼續專注于基於自然語言處理的文本資料的深度理解研究。 在EMBL-EBI積累的生物學科研經歷使得李辰對基於自然語言處理的生物文本挖掘這一跨學科領域具有獨到的見解。

“樹高千尺, 不忘根本”。 走得越遠, 對故鄉的懷念卻越深。 這些年, 他在外求學做研究的同時, 也從未停止過對祖國的關注。 “只要心存對事業和對祖國的熱愛, 什麼都不能阻擋我前進的步伐。 ”決定回國前, 排在世界五百強企業前列的UnitedHealth邀請他擔任高級管理人員, 報酬待遇非常優渥。

李辰婉拒了。 他還是很希望為國效力。 2016年, 李辰獲得中組部“千人計畫”青年人才和西安交通大學“青年拔尖人才計畫”, 回到了心心念念的祖國, 任職於西北這片廣袤的土地上, 開始了新的科研旅程。

大資料的核心——資料採擷

大資料是一種內容龐大而又多樣化的資訊資源, 被認為是等同于人力資源和物質資源的國家重要戰略資源。 大資料的價值, 不僅僅在於擁有海量的資料資訊, 更重要的是在於對這些含有意義的資料進行專業化處理, 提取最具價值的資訊, 挖掘找到人們所需要的有價值的東西。 人工分析這樣大量的資料顯然是不現實的, 必須要有高效的方法。

資料採擷是近年來新興的一種科學計算技術與資料分析方法,

它能夠有效地從大量資料中提取潛在的資訊與知識。 在生物資訊領域, 一系列挖掘演算法和挖掘模式的研究提出, 並應用於生物資料, 取得了傳統生物計算技術無可比擬的效果。

在當前大資料時代, 重視生物資訊學的發展極為重要, 也更加需要電腦技術的支援。 電腦輔助計算將是生物大資料分析的必由之路, 也必將成為生物研究中的中流砥柱。 對這一點, 李辰堅信不疑。 他所帶領的生物醫學文本挖掘研究組專注於研發資料驅動的機器學習模型和演算法, 來深度理解文本資料。 並積極將科研成果轉化為應用。 在生物資訊領域, 這些成功應用對於解決生命學科的重大問題具有深遠的意義。

把“不可能”變成“可能”

“在科研領域裡, 意識到一種天才的研究方法, 其價值並不在發現本身之下。 ”在電腦語言方面, 李辰研究網路的思維方法無疑是領先一步的。 如何能讓計算機智能地幫我們理解這些文獻, 從中自動提取出有價值的知識呢?海量的生物網路反應能夠被電腦理解是第一步。 李辰支援研發了BioModels資料標準及分析系統, 創新性地構建了一個集智慧存儲、搜索和類比生化反應網路數學模型的開放平臺。 這一標準填補了生物資訊學領域的網路模型的資料標準空白, 成為生化網路模型的標準資料庫之一, 目前已經存有近十五萬生物模型。 BioModels也被評為系統生物學領域最重要的資料資源, 並且得到多家權威國際學術出版機構的超過200種期刊的推薦。 2014年,歐盟在其提出的歐洲生物資訊架構計畫(ISBE)的詳細方案書中闡述了關於建立一個泛歐洲系統生物架構的迫切需要。BioModels被歐盟作為一個成功案例在歐洲生物資訊架構計畫(ISBE)的方案書中進行了分析。2014年,自然出版社對該系統進行了專訪。

在設計資料標準將大量的生化網路資料進行整合後,李辰團隊將新的語言模型引入生物文本挖掘領域。研發的多個基於機器學習監督演算法的生物文本挖掘模型在領域公認的資料集上進行測試,所得結果證明這些模型的性能均達到國際領先水準。2016年,在生物醫學文本挖掘的國際比賽BioNLP上,李辰團隊研發的LitWay系統獲得了SeeDev任務的第一名。在產學研應用方面,他們研發的新的生物網路提取架構使文本挖掘結果更加符合生物學科研究需求,從而拉近了生物文本挖掘科研與應用的距離。基於分析,進一步提出了結合篇章分析和生物資訊學的從反應提取向網路生成的發展方向,得到了業內科研人員的認可。

沒有超越現狀的睿智和銳氣,就沒有人類的發展;沒有強烈的創新意識,就沒有人類的進步。看到李辰和他的團隊,看到那股熱烈的科研精神,我們也仿佛看到了這一新興學科的無限可能和美好未來。

2014年,歐盟在其提出的歐洲生物資訊架構計畫(ISBE)的詳細方案書中闡述了關於建立一個泛歐洲系統生物架構的迫切需要。BioModels被歐盟作為一個成功案例在歐洲生物資訊架構計畫(ISBE)的方案書中進行了分析。2014年,自然出版社對該系統進行了專訪。

在設計資料標準將大量的生化網路資料進行整合後,李辰團隊將新的語言模型引入生物文本挖掘領域。研發的多個基於機器學習監督演算法的生物文本挖掘模型在領域公認的資料集上進行測試,所得結果證明這些模型的性能均達到國際領先水準。2016年,在生物醫學文本挖掘的國際比賽BioNLP上,李辰團隊研發的LitWay系統獲得了SeeDev任務的第一名。在產學研應用方面,他們研發的新的生物網路提取架構使文本挖掘結果更加符合生物學科研究需求,從而拉近了生物文本挖掘科研與應用的距離。基於分析,進一步提出了結合篇章分析和生物資訊學的從反應提取向網路生成的發展方向,得到了業內科研人員的認可。

沒有超越現狀的睿智和銳氣,就沒有人類的發展;沒有強烈的創新意識,就沒有人類的進步。看到李辰和他的團隊,看到那股熱烈的科研精神,我們也仿佛看到了這一新興學科的無限可能和美好未來。

Next Article
喜欢就按个赞吧!!!
点击关闭提示