過去一周, Github上最熱門的專案當屬自然語言處理Python庫spaCy, 該專案最近更新到了2.0版本。 SpaCy是一個基於自然語言處理研究創建的開源專案, 目的是最終將其用於真實的產品和解決方案。 2.0版本增加了幾個新功能, 包括新的神經網路模型, 支援更多的語言和改進的文檔。
SpaCy的作者Matthew Honnibal在發行說明中寫道, 新版本通過最新的深度學習技術對spaCy進行了更新, 並使得在可擴展的雲計算工作流程中運行spaCy變得更加容易。
新版本包含了13種神經網路模型,
可用於七種以上語言。
它還增加了對八種新語言(英語,
德語,
西班牙語,
葡萄牙語,
法語,
義大利語,
荷蘭語和多語言NER)的Alpha標記化支援。
它使用bloom嵌入策略來支援小表中的大型詞彙表。
核心神經網路模型具有詞性標籤,
依賴標籤和命名實體,
小型模型將僅具有上下文特定的標記向量,
而中等模型將具有詞向量。
對於這個版本, 大部分使用指南,
自從一個星期前更新到2.0版以來, 已經發佈了2.0.3版以解決一些bug, 甚至通過添加視頻, 更新培訓提示和建議等部分來進一步更新文檔。
Github上周其他五大熱門專案(根據Trending排行榜得出, 感興趣可直接在Github中搜索專案名稱獲取詳細資訊):
Git flight rules:使用Git的程式師指南。 如果事情出錯, 開發人員可以通過該專案看看可以做什麼。
State of the art result for machine learning problems:正如名稱所述, SoTA可以解決所有機器學習問題。
Node best practices:Node.js最佳實踐列表
JS code to SVG flowchart:用於將JS代碼轉換成SVG流程圖的視覺化庫。
Tensorflow:機器學習開源軟體庫。