您的位置:首頁>正文

淚奔:沒想到國產CPU晶片龍芯3A3000的研製竟然這麼難!

------------------------------ (根據《龍芯官網》、《 中國經濟網》、《第一財經日報》的素材整理)

2002年8月10日清晨6時08分, 是我國電腦領域值得永遠銘記的時刻, 從那一刻起, 中國人結束了只能用外國人的CPU造電腦的歷史, 中國電腦事業從此掀開了嶄新的一頁。 翻開這一頁的就是胡偉武, 是他帶領科研人員研製成功了我國首枚擁有自主智慧財產權的通用高性能微處理晶片 “龍芯1號”, “龍芯”的乳名叫“Godson”, 意取“天之子”, 而平時研製組都稱它“狗剩”, 胡偉武把龍芯當做孩子培育, 看得比自己的命還重要。 他說, 按照浙江農村的老傳統, 小名取得賤一點, 比如阿狗阿貓,

小孩就容易養活、養大。

龍芯1號, “狗剩”

胡偉武是2001年5月接到研製“中國芯”CPU重任的, “狗剩1號”誕生前, 胡偉武曾對計算所所長李國傑立下軍令狀:“做不出來, 提頭來見”。 胡偉武在中科院電腦所一年的收入, 還不及同窗在美國一個月的收入, 而在中科院的五年來的工作強度卻是每週工作七八十個小時,

累了就趴在桌上休息一會兒, 已經成為電腦所隨處可見的情形。

2003年10月17日淩晨1點10分, “狗剩2號”誕生, 就在一年前, “狗剩2號”研製組全體成員經過幾天幾夜加班, 終於完成了最佳方案版圖設計時, 測試組報告出現問題, 而且可能導致整個方案流產。 胡偉武回憶說:“我腦袋當時就 嗡 地一下, 一句話也說不出來。 ”回到機房, 看著全組成員都因連續熬夜, 臉上除了眼睛外連嘴唇都沒有一絲血色, 他真不忍心再要大家做什麼, 而只要他說放棄, 大家就可以回去休息了。 “我把負責物理設計的幾個人召集起來, 沒想到幾個人馬上就說他們可以手工再改版圖!半個小時後, 我在機房進行了全體動員 ”。

龍芯2F 筆記本

胡偉武回憶說:2005年深秋一天晚上8點左右, 我們正在會議室熱烈地討論龍芯3號的結構, 當時在計算所科研處工作的夏洪流和傅信國給我打電話說是要來跟我談一個項目的事, 他們到時已是晚上9點多, 我們就坐在香山別墅的走廊盡頭談,

他們說科學院有一個抗輻照CPU的預研專案, 希望龍芯課題組來承擔。 我剛開始不願意做, 結果他們好說歹說地讓我勉強答應了, 當時的一個理由是領導每年對他們爭取的專案經費有要求, 我如果不做這個抗輻照CPU項目, 他們的任務就完不成了, 我頭腦一熱就答應了。 現在龍芯抗輻照CPU已經隨著以北斗為代表的多顆衛星在天空翱翔, 每年還為龍芯公司帶來較可觀的收入, 成為龍芯公司的戰略產品並開始走向系列化, 真是非常感謝夏洪流和傅信國那天晚上的苦口婆心。

龍芯抗輻射晶片用於“北斗”導航衛星

2008年底龍芯3A1000交付流片。 胡偉武已不記得經歷了多少加班加點, 只記得流片前的幾個月每天晚上十點開例會安排工作。 晚上十點例會是非常高效的一種工作方法, 會後大家把有關設計在EDA伺服器上跑起來再回家, 第二天早上上班時剛好跑出結果來;如果是早上上班後開始在EDA伺服器上跑, 基本上大半天就在等待伺服器運行出結果中度過。 在此後龍芯CPU問題的攻關中,一直沿襲了晚上例會安排工作的方法。

2009年5月20日龍芯3A1000晶圓生產下線,9月28日樣片回來,成功啟動作業系統,主頻800MHz-1GHz。這是龍芯CPU第一次啟動多核作業系統,免不了調一通。胡偉武印象最深刻的是10月2日晚上熬了個通宵,一起的有王劍等人,剛開始是挨個核跑單核作業系統,把每個核都跑一遍,再把多核作業系統搞穩定,一直到第二天早上才弄完。

在龍芯3A1000出來以後,在用80顆龍芯3A1000同時運行的過程中總是出現偶發性錯誤。這個錯誤如果單個晶片跑一個月也碰不上一次,只有這樣80多片一起跑才會一天碰到一次。有三個多月的時間,龍芯團隊一直進行各種嘗試,試圖定位該錯誤並明確其機理。

2010年春節的大年三十晚上胡偉武還在跟當時負責軟體的高翔商量進行各種嘗試,縮小搜索範圍。一直到春節後才定位了這個錯誤。在3A1000的研製過程中,龍芯團隊掌握了多核CPU的片內互連及Cache一致性技術,以及片間多路互連技術。直到今日,龍芯仍然是唯一能支持多路伺服器的自主CPU。在最近國外CPU企業對中國企業的CPU技術授權中,支援多路伺服器的技術受美國政府限制還是不能給中國的。

2010年龍芯課題組轉型成立龍芯中科技術有限公司,當時是下了很大決心的,已認識到不能腳踩兩隻船,辦企業和做研究不一樣,即使嘔心瀝血,也是九死一生,因此一定要專心,要求絕大多數技術骨幹都從計算所辭職。像張戈25歲就已經是副高職稱,是學術上很有前途的苗子,也毅然從計算所辭職。原國家外專局局長馬俊如從2006年起就曾多次對胡偉武說,龍芯在科學院裡面已經做得很好了,不能再好了,要想更好,就必須下海辦企業。過去,中國科研院所給國外培養了很多人才,現在到了外企給我們培養人才的時候。龍芯平臺也不錯,很多有識之士在外企呆了很多年,錢也賺得差不多了,想做一點事情,就到龍芯來。我們再落實一些股權期權激勵。讓科研人員快速地轉變觀念,以企業為主體,真正目標不在乎論文,在乎銷售額、在乎利潤,現在整個觀念都轉變了。

2010年11月底龍芯3B回來第一批晶片,但第一批晶片回來測試並不順利,連作業系統都啟動不了,這是一個重大的打擊,龍芯歷史上從來沒有犯過這樣簡單的錯誤,而且在同一時期流片的龍芯1A、龍芯2I等晶片也出現了由於簡單工作失誤引起的錯誤,究其原因,是龍芯團隊在2010年初從課題組管理機制轉向公司管理機制的過程中,原來“作坊式”的設計流程被打破了,“工業化”的設計流程沒有建立起來。痛定思痛,著手晶片研製的品質體系建設,建立了“五步法”(立項、方案、簽核、測試、結項)研製過程,並詳細規定了每個階段的研發和審核內容,在此後龍芯公司進行的幾十次流片中,沒有出現過嚴重的品質問題。

2012年8月底拿到八核3B1500樣片,初步測試正常,頻率從3B1000的900MHz提高到1.25GHz,在經過測試後對該晶片進行了萬片規模的小批量生產。在應用驗證過程中,出現了在很大的應用壓力下個別晶片不穩定現象,剛開始覺得是個體問題,後來出現的次數多了,每天晚上召開例會討論,安排各種嘗試,在這個過程中發現了幾個軟硬體磨合的問題並通過軟體調整後,出問題的概率小了很多,但問題如幽靈般還在。

龍芯3B1500桌上型電腦

直到2013年4月12日,才抓到了該問題。這個問題是從3B1000到3B1500改版過程中引進的,為了提高性能,處理器核收到多個維護Cache一致性的無效請求時,誤把IO DMA引起的Cache無效請求當作0號處理器核的Cache無效請求,通過軟體調整可以規避此問題。經過批量測試,原不穩定現象消失。

2013年5月,龍芯公司結合市場需求對CPU的研發路線進行了認真調整。龍芯3B的研製過程真是一波三折,沒有擺脫學院派的慣性,走了彎路,滿足不了當時迫切的自主資訊化市場需求,一是龍芯3號系列多核CPU不追求核的個數而是大幅度提高單核性能,放棄高性能機專用CPU的研製,暫停16核處理器研製,重點把雙核、四核處理器做精做透。胡偉武回想這些過程,出現過龍芯從課題組向公司轉型過程中的管理問題,生產廠家引起的問題,多核互相訪問引起的鎖死問題,處理器核Cache一致性引起的問題。在解決了一個個問題後總算取得了成功。

2012年上半年胡偉武在機房中花了整整兩周時間為把CPU的微結構GS464升級為GS464E打好必要的基礎後(胡偉武當時說要把馬的架子變成駱駝的架子),把維護和升級處理器核的任務移交給汪文祥和吳瑞陽。這很可能是胡偉武最後一次有機會寫龍芯CPU的代碼了,胡偉武回憶起來,能夠在機房中心無旁騖地寫代碼真是莫大的幸福,有無比的成就感,但自己不能讓自己成為龍芯CPU發展的瓶頸。而且經過多年實踐的鍛煉,龍芯的年輕人已經充分地成長起來了。3A2000開始由年輕人擔任晶片的技術負責人,承擔國家項目也主要由年輕人作為項目負責人。

2013年5月,龍芯團隊暫停了已經完成主要設計的16核龍芯3C處理器流片,開始四核3A2000處理器的研發,3A2000主要目標就是大幅度提高單核性能,使單核通用處理器性能提高3倍以上。

2013年初,在龍芯最困難的時候,中科院計算所孫凝暉所長在所裡資金本身就很困難的情況下,拿出500萬元支持龍芯3A2000處理器核GS464E的前期研發。雖然與研製3A2000所需要的上億元經費相比,500萬顯得很少,但在龍芯最困難的時候得到來自龍芯“娘家”計算所的支持,覺得非常溫暖。

2014年11月初,3A2000交付流片,由於流片前的功能驗證非常充分,尤其是在3A2000驗證過程中,王朋宇負責的驗證組完善了龍芯指令級隨機驗證環境,大大提高了3A2000的功能驗證覆蓋率,物理設計和檢查也精雕細刻,我們對3A2000流片成功很有信心。

2015年4月10日,經過幾個月的焦急等待,在晚飯後終於拿到了3A2000的盲封樣片,連夜進行調試,到第二天早上三點多成功運行作業系統。隨後的測試一切順利,在基於龍芯3A2000的桌面終端上進行各種辦公應用,覺得流暢多了,有部分晶片在較高電壓下運行不穩定,當時並沒有引起重視。

龍芯3A2000桌上型電腦

2015年5月,經過ATE測試台成測的一批晶片回來測試,發現功能測試結果與ATE測試台測試結果不一致,即部分晶片通過ATE測試後功能還是不正常,這是3A2000完成產品化的嚴重障礙(即通過測試後提供給客戶的晶片中有一部分可能是壞的)。通過調整ATE向量,ATE測試與功能測試的一致性增強,但還有部分晶片不完全一致,總體感覺N管偏快的工藝穩定性明顯增強。為了更好地分析原因,6月初請廠家把第一次流片中6個hold的晶圓調整工藝角開始生產。

2015年11月初,6個調整工藝角的晶片回來,經過大量的ATE測試和功能測試,確定寄存器堆是部分晶片功能不穩定的主要原因。ATE測試發現不同工藝角晶片的寄存器堆MBIST測試在1.30V到1.50V的不同電壓下出錯,功能測試出錯電壓則比寄存器堆低100-150mV,有較強的一致性,但機理仍不清楚。

2016年1月11日下午下班前,胡偉武跟範寶峽、蘇孟豪在討論蘇孟豪通過JTAG通路以Scan Collar方式測試寄存器堆沒有發現錯誤的問題,並瞭解到楊旭審查版圖發現寫埠的位線的延遲在其它埠寫相反值及讀埠旁路讀時是最差情況,我馬上叫蘇孟豪用最差情況向量通過JTAG埠進行測試,很快就複現了寄存器堆出錯的問題並經過進一步分析搞清楚了寄存器堆寫出錯的機理:在寄存器堆寫埠寫入過程中,要求位線比字線先到,字線與位線之間保持必要的延遲差才能保證寫入的正確性,但在位線負載大時位元線延遲變大,字位線延遲差太小,導致寫寄存器堆出錯。提高電壓會進一步減少字線與位線的延遲差,因此更容易出錯。

胡偉武回憶說:真是柳暗花明,困擾我們大半年的3A2000產品化問題終於搞清楚了,尤其是這說明我們在2015年9月份在機理不清楚情況下的改版是正確的。而且這個測試向量提供了一種在已有晶片中把不穩定的晶片篩選掉的辦法,這是龍芯3A2000產品化過程邁出的重大一步。

2016年2月8日是春節,3A2000第一次改版的晶片在2月4日完成封裝,為了在春節前完成3A2000第一次改版晶片測試,孫凱軍專門到封裝廠等待封裝好的晶片,拿到晶片時已經是下午6點多,直飛北京的飛機已經沒了,半夜到上海倒了一次飛機,5日上午到北京,馬上安排測試,確實寄存器堆的問題大大緩解了,穩定性大幅度提高。春節上班後龍芯團隊又組織攻關解決了一個軟硬體磨合的問題。

2016年2月22日,完成3A2000的初步產品化工作,開始對外銷售晶片,2016年3月中旬,3A2000進行再次改版,修改了其它幾個小問題。2016年7月下旬,晶片回來後經測試,原來的定制模組問題不復存在,晶片功能正常。

龍芯3A3000是在2015年5月臨時安排研製的,2015年5月初,胡偉武去常熟跟龍芯夢蘭公司的張福新、吳少剛等人討論3A2000整機解決方案的研發,大家對3A2000大幅度提升性能都很高興,大大增強了信心。同時張福新他們提出,由於我們使用境內的40nm低速工藝,而引進ARM和威盛的CPU都使用境外28nm高速工藝,雖然3A2000在微結構上已經超過了引進的ARM和威盛的CPU,由於主頻偏低,3A2000在綜合性能上還是吃虧,建議龍芯也儘快使用境外工藝提升頻率。經過認真討論,我們認為如果我們採用Intel的Tick-Tock(滴答)研發策略,應該可以很快推出主頻1.5GHz以上,綜合性能超過2GHz的ARM和威盛的處理器。

2016年6月端午假期期間,龍芯3A3000完成晶圓生產並進行了中間階段測試,剛開始比較順利,已經調試完成大部分向量,只是測試研製的鎖相環時發現鎖相環輸出時鐘有不穩定現象,6月中旬拿到盲封晶片,測試發現只有在低於0.8V的低電壓下晶片才能正常工作,經過兩周的分析發現還是寄存器堆的問題,這次是讀出電路的問題,讀電路解碼時產生了毛刺,把別的字的內容耦合到讀出字內容來了,好在該問題只需要修改一層掩模版。

2016年9月13日,修改寄存器堆問題的改版晶片回來,這次測試非常順利,很快就運行了大型程式,均未發現異常。主頻可以達到1.5GHz以上。進一步的測試結果比想像的好,一是記憶體頻率可以達到750MHz以上,而且信號眼圖還非常好,測試頻寬達到13GB/s;二是雖然主頻只提高了50%,但綜合性能可以提高60%;三是可以運行在很低電壓下,例如運行在1.0V電壓下主頻1GHz時功耗還不到3A2000運行1GHz時的一半。對於複雜應用(如打開幾十MB的複雜文件),3A3000的用戶體驗比3A2000有顯著提高。

2016年10月17日,龍芯3A3000通過了龍芯公司品質體系要求的商業級產品的鑒定檢驗摸底測試,表明龍芯3A3000可以進入批量生產狀態。當前3A3000已開始批量生產,其中經過測試支持通過直連形成多路伺服器的晶片成為3B3000。至此,龍芯3A3000研製才算畫上了圓滿的句號!

龍芯3A3000筆記本

龍芯十五年的堅持來自中國科學院的光榮傳承,中科院計算所是我國電腦事業的搖籃,經歷了“完全自主但沒有市場化”的第一個三十年,為兩彈一星做電腦;也經歷了“完全市場化但喪失自主性”的第二個三十年,創辦了聯想公司和曙光公司,為了與市場接軌,研發工作忍痛從CPU和作業系統中退出。胡偉武他們是中國第三代電腦人,任務是在市場化條件下實現自主性,保障國家安全和支撐產業發展。胡偉武的導師夏培肅院士是我國電腦事業的重要奠基人,她多次對胡偉武說,這輩子最大的心願就是把中國的電腦事業搞好,她們這代人沒搞好,希望我們搞得比她們好。

李國傑院士曾經在一次自主可控行業的大會上動情地說:我的導師夏老師(李國傑院士也是夏培肅院士的學生)已經九十歲了,幹不動了;我也七十歲了,快幹不動了;如果到胡偉武這一代我國的CPU和作業系統還沒有發展起來,中國的IT產業就沒戲了。

龍芯團隊有一個老研究員黃令儀老師(中國兩彈一星元勳,將自己的一生奉獻給中國的科研事業,本應退休在家安享晚年,彌補幾十年從未享受過的天倫之樂。聽聞中國“芯”病尚未解決,黃院士66歲再起航,一干就是16年),今年八十歲了還天天在螢幕前拖著滑鼠查版圖,有一次胡偉武請黃老師參加某用於安全領域的晶片研發工作時,黃老師脫口而出:胡老師,我這輩子最大的心願就是匍匐在地,擦乾祖國身上的恥辱;我是親眼見過我的同胞被日本鬼子的飛機炸死的。前輩的精神感染了我們,前輩的榮光照亮了我們前進的道路,讓我們咬著牙關,勇往直前!

龍芯十六歲了,2001年8月19日清晨當螢幕上第一次出現“godson login”時的那聲歡呼已經遠去,在雨中登黃山的臺階上高唱《真心英雄》時的那種豪情已經消退,夜深人靜時在計算所北樓長長的走廊盡頭泡速食麵記憶已經模糊,但龍芯人“為人民做龍芯”的初心未改,“十年磨一劍”的執著依舊,“人生能有幾回搏”的奮鬥長在。我們已經走在“以安全可控為主題、以產業發展為主線、以生態建設為目標”的新長征道路上。迷失方向時,堅持從國家和人民的角度做出選擇就是我們心中的“北斗星”。請關注我的頭條號:“互聯網賺錢那些事兒”,後續更多有關龍芯內容將陸續推出!

在此後龍芯CPU問題的攻關中,一直沿襲了晚上例會安排工作的方法。

2009年5月20日龍芯3A1000晶圓生產下線,9月28日樣片回來,成功啟動作業系統,主頻800MHz-1GHz。這是龍芯CPU第一次啟動多核作業系統,免不了調一通。胡偉武印象最深刻的是10月2日晚上熬了個通宵,一起的有王劍等人,剛開始是挨個核跑單核作業系統,把每個核都跑一遍,再把多核作業系統搞穩定,一直到第二天早上才弄完。

在龍芯3A1000出來以後,在用80顆龍芯3A1000同時運行的過程中總是出現偶發性錯誤。這個錯誤如果單個晶片跑一個月也碰不上一次,只有這樣80多片一起跑才會一天碰到一次。有三個多月的時間,龍芯團隊一直進行各種嘗試,試圖定位該錯誤並明確其機理。

2010年春節的大年三十晚上胡偉武還在跟當時負責軟體的高翔商量進行各種嘗試,縮小搜索範圍。一直到春節後才定位了這個錯誤。在3A1000的研製過程中,龍芯團隊掌握了多核CPU的片內互連及Cache一致性技術,以及片間多路互連技術。直到今日,龍芯仍然是唯一能支持多路伺服器的自主CPU。在最近國外CPU企業對中國企業的CPU技術授權中,支援多路伺服器的技術受美國政府限制還是不能給中國的。

2010年龍芯課題組轉型成立龍芯中科技術有限公司,當時是下了很大決心的,已認識到不能腳踩兩隻船,辦企業和做研究不一樣,即使嘔心瀝血,也是九死一生,因此一定要專心,要求絕大多數技術骨幹都從計算所辭職。像張戈25歲就已經是副高職稱,是學術上很有前途的苗子,也毅然從計算所辭職。原國家外專局局長馬俊如從2006年起就曾多次對胡偉武說,龍芯在科學院裡面已經做得很好了,不能再好了,要想更好,就必須下海辦企業。過去,中國科研院所給國外培養了很多人才,現在到了外企給我們培養人才的時候。龍芯平臺也不錯,很多有識之士在外企呆了很多年,錢也賺得差不多了,想做一點事情,就到龍芯來。我們再落實一些股權期權激勵。讓科研人員快速地轉變觀念,以企業為主體,真正目標不在乎論文,在乎銷售額、在乎利潤,現在整個觀念都轉變了。

2010年11月底龍芯3B回來第一批晶片,但第一批晶片回來測試並不順利,連作業系統都啟動不了,這是一個重大的打擊,龍芯歷史上從來沒有犯過這樣簡單的錯誤,而且在同一時期流片的龍芯1A、龍芯2I等晶片也出現了由於簡單工作失誤引起的錯誤,究其原因,是龍芯團隊在2010年初從課題組管理機制轉向公司管理機制的過程中,原來“作坊式”的設計流程被打破了,“工業化”的設計流程沒有建立起來。痛定思痛,著手晶片研製的品質體系建設,建立了“五步法”(立項、方案、簽核、測試、結項)研製過程,並詳細規定了每個階段的研發和審核內容,在此後龍芯公司進行的幾十次流片中,沒有出現過嚴重的品質問題。

2012年8月底拿到八核3B1500樣片,初步測試正常,頻率從3B1000的900MHz提高到1.25GHz,在經過測試後對該晶片進行了萬片規模的小批量生產。在應用驗證過程中,出現了在很大的應用壓力下個別晶片不穩定現象,剛開始覺得是個體問題,後來出現的次數多了,每天晚上召開例會討論,安排各種嘗試,在這個過程中發現了幾個軟硬體磨合的問題並通過軟體調整後,出問題的概率小了很多,但問題如幽靈般還在。

龍芯3B1500桌上型電腦

直到2013年4月12日,才抓到了該問題。這個問題是從3B1000到3B1500改版過程中引進的,為了提高性能,處理器核收到多個維護Cache一致性的無效請求時,誤把IO DMA引起的Cache無效請求當作0號處理器核的Cache無效請求,通過軟體調整可以規避此問題。經過批量測試,原不穩定現象消失。

2013年5月,龍芯公司結合市場需求對CPU的研發路線進行了認真調整。龍芯3B的研製過程真是一波三折,沒有擺脫學院派的慣性,走了彎路,滿足不了當時迫切的自主資訊化市場需求,一是龍芯3號系列多核CPU不追求核的個數而是大幅度提高單核性能,放棄高性能機專用CPU的研製,暫停16核處理器研製,重點把雙核、四核處理器做精做透。胡偉武回想這些過程,出現過龍芯從課題組向公司轉型過程中的管理問題,生產廠家引起的問題,多核互相訪問引起的鎖死問題,處理器核Cache一致性引起的問題。在解決了一個個問題後總算取得了成功。

2012年上半年胡偉武在機房中花了整整兩周時間為把CPU的微結構GS464升級為GS464E打好必要的基礎後(胡偉武當時說要把馬的架子變成駱駝的架子),把維護和升級處理器核的任務移交給汪文祥和吳瑞陽。這很可能是胡偉武最後一次有機會寫龍芯CPU的代碼了,胡偉武回憶起來,能夠在機房中心無旁騖地寫代碼真是莫大的幸福,有無比的成就感,但自己不能讓自己成為龍芯CPU發展的瓶頸。而且經過多年實踐的鍛煉,龍芯的年輕人已經充分地成長起來了。3A2000開始由年輕人擔任晶片的技術負責人,承擔國家項目也主要由年輕人作為項目負責人。

2013年5月,龍芯團隊暫停了已經完成主要設計的16核龍芯3C處理器流片,開始四核3A2000處理器的研發,3A2000主要目標就是大幅度提高單核性能,使單核通用處理器性能提高3倍以上。

2013年初,在龍芯最困難的時候,中科院計算所孫凝暉所長在所裡資金本身就很困難的情況下,拿出500萬元支持龍芯3A2000處理器核GS464E的前期研發。雖然與研製3A2000所需要的上億元經費相比,500萬顯得很少,但在龍芯最困難的時候得到來自龍芯“娘家”計算所的支持,覺得非常溫暖。

2014年11月初,3A2000交付流片,由於流片前的功能驗證非常充分,尤其是在3A2000驗證過程中,王朋宇負責的驗證組完善了龍芯指令級隨機驗證環境,大大提高了3A2000的功能驗證覆蓋率,物理設計和檢查也精雕細刻,我們對3A2000流片成功很有信心。

2015年4月10日,經過幾個月的焦急等待,在晚飯後終於拿到了3A2000的盲封樣片,連夜進行調試,到第二天早上三點多成功運行作業系統。隨後的測試一切順利,在基於龍芯3A2000的桌面終端上進行各種辦公應用,覺得流暢多了,有部分晶片在較高電壓下運行不穩定,當時並沒有引起重視。

龍芯3A2000桌上型電腦

2015年5月,經過ATE測試台成測的一批晶片回來測試,發現功能測試結果與ATE測試台測試結果不一致,即部分晶片通過ATE測試後功能還是不正常,這是3A2000完成產品化的嚴重障礙(即通過測試後提供給客戶的晶片中有一部分可能是壞的)。通過調整ATE向量,ATE測試與功能測試的一致性增強,但還有部分晶片不完全一致,總體感覺N管偏快的工藝穩定性明顯增強。為了更好地分析原因,6月初請廠家把第一次流片中6個hold的晶圓調整工藝角開始生產。

2015年11月初,6個調整工藝角的晶片回來,經過大量的ATE測試和功能測試,確定寄存器堆是部分晶片功能不穩定的主要原因。ATE測試發現不同工藝角晶片的寄存器堆MBIST測試在1.30V到1.50V的不同電壓下出錯,功能測試出錯電壓則比寄存器堆低100-150mV,有較強的一致性,但機理仍不清楚。

2016年1月11日下午下班前,胡偉武跟範寶峽、蘇孟豪在討論蘇孟豪通過JTAG通路以Scan Collar方式測試寄存器堆沒有發現錯誤的問題,並瞭解到楊旭審查版圖發現寫埠的位線的延遲在其它埠寫相反值及讀埠旁路讀時是最差情況,我馬上叫蘇孟豪用最差情況向量通過JTAG埠進行測試,很快就複現了寄存器堆出錯的問題並經過進一步分析搞清楚了寄存器堆寫出錯的機理:在寄存器堆寫埠寫入過程中,要求位線比字線先到,字線與位線之間保持必要的延遲差才能保證寫入的正確性,但在位線負載大時位元線延遲變大,字位線延遲差太小,導致寫寄存器堆出錯。提高電壓會進一步減少字線與位線的延遲差,因此更容易出錯。

胡偉武回憶說:真是柳暗花明,困擾我們大半年的3A2000產品化問題終於搞清楚了,尤其是這說明我們在2015年9月份在機理不清楚情況下的改版是正確的。而且這個測試向量提供了一種在已有晶片中把不穩定的晶片篩選掉的辦法,這是龍芯3A2000產品化過程邁出的重大一步。

2016年2月8日是春節,3A2000第一次改版的晶片在2月4日完成封裝,為了在春節前完成3A2000第一次改版晶片測試,孫凱軍專門到封裝廠等待封裝好的晶片,拿到晶片時已經是下午6點多,直飛北京的飛機已經沒了,半夜到上海倒了一次飛機,5日上午到北京,馬上安排測試,確實寄存器堆的問題大大緩解了,穩定性大幅度提高。春節上班後龍芯團隊又組織攻關解決了一個軟硬體磨合的問題。

2016年2月22日,完成3A2000的初步產品化工作,開始對外銷售晶片,2016年3月中旬,3A2000進行再次改版,修改了其它幾個小問題。2016年7月下旬,晶片回來後經測試,原來的定制模組問題不復存在,晶片功能正常。

龍芯3A3000是在2015年5月臨時安排研製的,2015年5月初,胡偉武去常熟跟龍芯夢蘭公司的張福新、吳少剛等人討論3A2000整機解決方案的研發,大家對3A2000大幅度提升性能都很高興,大大增強了信心。同時張福新他們提出,由於我們使用境內的40nm低速工藝,而引進ARM和威盛的CPU都使用境外28nm高速工藝,雖然3A2000在微結構上已經超過了引進的ARM和威盛的CPU,由於主頻偏低,3A2000在綜合性能上還是吃虧,建議龍芯也儘快使用境外工藝提升頻率。經過認真討論,我們認為如果我們採用Intel的Tick-Tock(滴答)研發策略,應該可以很快推出主頻1.5GHz以上,綜合性能超過2GHz的ARM和威盛的處理器。

2016年6月端午假期期間,龍芯3A3000完成晶圓生產並進行了中間階段測試,剛開始比較順利,已經調試完成大部分向量,只是測試研製的鎖相環時發現鎖相環輸出時鐘有不穩定現象,6月中旬拿到盲封晶片,測試發現只有在低於0.8V的低電壓下晶片才能正常工作,經過兩周的分析發現還是寄存器堆的問題,這次是讀出電路的問題,讀電路解碼時產生了毛刺,把別的字的內容耦合到讀出字內容來了,好在該問題只需要修改一層掩模版。

2016年9月13日,修改寄存器堆問題的改版晶片回來,這次測試非常順利,很快就運行了大型程式,均未發現異常。主頻可以達到1.5GHz以上。進一步的測試結果比想像的好,一是記憶體頻率可以達到750MHz以上,而且信號眼圖還非常好,測試頻寬達到13GB/s;二是雖然主頻只提高了50%,但綜合性能可以提高60%;三是可以運行在很低電壓下,例如運行在1.0V電壓下主頻1GHz時功耗還不到3A2000運行1GHz時的一半。對於複雜應用(如打開幾十MB的複雜文件),3A3000的用戶體驗比3A2000有顯著提高。

2016年10月17日,龍芯3A3000通過了龍芯公司品質體系要求的商業級產品的鑒定檢驗摸底測試,表明龍芯3A3000可以進入批量生產狀態。當前3A3000已開始批量生產,其中經過測試支持通過直連形成多路伺服器的晶片成為3B3000。至此,龍芯3A3000研製才算畫上了圓滿的句號!

龍芯3A3000筆記本

龍芯十五年的堅持來自中國科學院的光榮傳承,中科院計算所是我國電腦事業的搖籃,經歷了“完全自主但沒有市場化”的第一個三十年,為兩彈一星做電腦;也經歷了“完全市場化但喪失自主性”的第二個三十年,創辦了聯想公司和曙光公司,為了與市場接軌,研發工作忍痛從CPU和作業系統中退出。胡偉武他們是中國第三代電腦人,任務是在市場化條件下實現自主性,保障國家安全和支撐產業發展。胡偉武的導師夏培肅院士是我國電腦事業的重要奠基人,她多次對胡偉武說,這輩子最大的心願就是把中國的電腦事業搞好,她們這代人沒搞好,希望我們搞得比她們好。

李國傑院士曾經在一次自主可控行業的大會上動情地說:我的導師夏老師(李國傑院士也是夏培肅院士的學生)已經九十歲了,幹不動了;我也七十歲了,快幹不動了;如果到胡偉武這一代我國的CPU和作業系統還沒有發展起來,中國的IT產業就沒戲了。

龍芯團隊有一個老研究員黃令儀老師(中國兩彈一星元勳,將自己的一生奉獻給中國的科研事業,本應退休在家安享晚年,彌補幾十年從未享受過的天倫之樂。聽聞中國“芯”病尚未解決,黃院士66歲再起航,一干就是16年),今年八十歲了還天天在螢幕前拖著滑鼠查版圖,有一次胡偉武請黃老師參加某用於安全領域的晶片研發工作時,黃老師脫口而出:胡老師,我這輩子最大的心願就是匍匐在地,擦乾祖國身上的恥辱;我是親眼見過我的同胞被日本鬼子的飛機炸死的。前輩的精神感染了我們,前輩的榮光照亮了我們前進的道路,讓我們咬著牙關,勇往直前!

龍芯十六歲了,2001年8月19日清晨當螢幕上第一次出現“godson login”時的那聲歡呼已經遠去,在雨中登黃山的臺階上高唱《真心英雄》時的那種豪情已經消退,夜深人靜時在計算所北樓長長的走廊盡頭泡速食麵記憶已經模糊,但龍芯人“為人民做龍芯”的初心未改,“十年磨一劍”的執著依舊,“人生能有幾回搏”的奮鬥長在。我們已經走在“以安全可控為主題、以產業發展為主線、以生態建設為目標”的新長征道路上。迷失方向時,堅持從國家和人民的角度做出選擇就是我們心中的“北斗星”。請關注我的頭條號:“互聯網賺錢那些事兒”,後續更多有關龍芯內容將陸續推出!

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示