您的位置:首頁>科技>正文

穀歌地圖重大升級,用深度學習即時更新街景

雷鋒網瞭解到, 在“從街景圖像中提取基於注意機制的結構化資訊”(Attention-based Extraction of Structured Information from Street View Imagery)一文中, 穀歌描述了所採用的方法——怎樣在街景視圖中使用深度神經網路自動且準確無誤地讀出街道名稱。 我們的演算法系統在挑戰“法國街道名稱識別資料集”(French Street Name Signs (FSNS) dataset)中達到了84.2%的正確率, 明顯優於之前的最優系統。 重要的是, 穀歌的系統在提取其他類型資訊也是很容易擴展的。 比如現在幫助穀歌自動提取商店前面的商戶名稱。 目前該模型已經開源。

圖中為法國街道名稱標識資料集中的一個例子, 被穀歌的系統正確識別。 上圖為同一標識的四種不同視角

自然環境中的文本識別在電腦視覺和機器學習上是一個非常具有挑戰性的問題。 傳統的光學字元辨識(OCR)系統主要側重於從掃描的文檔中提取文本。 在自然場景中由於視覺偽影, 如失真、閉塞、定向模糊、雜亂的背景或不同的角度給提取文本提升了難度。 穀歌從2008年開始致力於解決這一問題, 使用神經網路模糊了街景圖像中的臉和車牌, 以保護穀歌用戶的隱私。 從最初的研究中, 團隊意識到經過足夠的標記資料訓練後, 機器學習不僅能保護用戶的隱私, 而且還可以自動升級穀歌地圖相關的最新資訊。

2014年穀歌地面實況團隊在街景門牌號資料集(SVHN)上公佈了讀取街道號碼的方法, 隨後暑期實習生Ian Goodfellow(現為穀歌員工)進行了運用。

這個工作不僅是出於對學術的興趣, 而且也是使穀歌地圖更為精確的關鍵。 如今得益於這個系統, 超過三分之一的全球位址已經在穀歌地圖上有了自己的位置。 在一些國家, 如巴西, 這個演算法增加了超過90%的穀歌地圖地址, 大大提高了穀歌地圖的可用性。

下一步是將這些技術擴展到街道名稱。 為了解決這個問題, 穀歌創建和發佈了法國街道名稱標誌(French Street Name Signs, FSNS), 有超過100萬的街道名稱訓練資料集, 旨在提高人們對OCR模型在實際使用情況下的認識。 FSNS是穀歌經過多年的努力而構建的, 它比SVHN資料集更加龐大, 也更具挑戰性, 因為如果要準確識別某個街道標識, 可能需要對各個角度所拍攝的圖片進行整合處理。

上圖是識別起來很有難度的一些標識, 也被穀歌系統通過對圖像的理解而正確判斷了。 尤其是第二個, 不過這個模型在之前學習了語言模型, 使其能夠消除歧義, 並正確識別出街道名。 值得一提的是, 在FSNS資料集中, 同一路標在少於四個獨立視圖的情況下會以增加隨機雜訊的方式。

谷歌實習生Zbigniew Wojnazai在2016年夏天用這個資料集開發了一個深度學習模型, 它能夠自動標注新的街景視圖。 這個新模型的一個優點是, 它可以根據日常的命名習慣進行文本規範。

上圖的例子中, 可以將"AV."轉化為"Avenida", "PRES."轉化為“Presidente”這是我們期望看到的結果

在這個圖中, 模型沒有被圖中的兩個街道名稱迷惑, 將"Av"正確轉化為"Avenue",同時也識別出了數字"1600"

儘管這個模型非常精確, 它依然有15.8%的序列錯誤率。 不過, 在分析錯誤樣本後, 團隊發現, 其中48%是由於地面實況錯誤, 也就是說, 模型與標記品質呈現的準確度基本一致。 (在我們的論文中有詳細的錯誤率分析)

這個新系統結合了提取街道號碼技術, 使我們能夠直接從圖像創建新的位址。 現在, 每當一輛街景車在新建的道路上行駛時, 我們的系統可以捕捉上千萬張圖像, 提取街道名稱和數位, 並自動在穀歌地圖上創建和定位新位址。

但自動為穀歌地圖創建位址是不夠的。 此外, 我們還希望能夠為商業提供導航。 在2015, 我們發表了“從街景圖像中進行大規模的商業發現”(Large Scale Business Discovery from Street View Imagery)一文, 文中提出了一種方法可以準確地檢測商店外牆的標誌。

然而, 檢測到商店外牆, 仍然需要準確地提取它的有用名稱。 模型必須找出哪個文本是商戶名稱, 哪些文本是不相關的。 穀歌稱這種提取為“結構化文本”資訊的提取。 它不只是文字, 而是具有語義意義的文本。

使用不同的訓練資料, 我們用來讀取街道名稱的模型結構也可以用來準確地提取商業名稱。 在這種特殊情況下, 如果我們已經知道這個商戶在穀歌地圖的位置, 可以只提取商業名稱來進行驗證, 使之能夠更準確地更新商業列表。

如上圖所示, 雖然沒有從圖片中獲得任何有關真真實位址的資訊, 但系統還是正確識別出了商戶的名字Zelina Pneus, 而且沒有被旁邊的輪胎品牌所騙。

模型需要處理800多億個街景圖像, 需要強大的計算能力。這就是為什麼穀歌地面實況團隊採用TPU,可以大幅減少我們的推理計算成本。

人們依賴于穀歌地圖的精准性來協助他們工作和生活。同時,在景觀、道路和商業不斷變化的情況下,穀歌地圖的更新所面臨的技術挑戰,遠遠還沒有解決。為超過十億的穀歌地圖用戶創造更好的用戶體驗,一直是穀歌地面實況團隊追求的目標。

viaGoogle Research Blog,雷鋒網編譯

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

雷鋒網

更多精彩資訊,請來金融界網站(www.jrj.com.cn)

需要強大的計算能力。這就是為什麼穀歌地面實況團隊採用TPU,可以大幅減少我們的推理計算成本。

人們依賴于穀歌地圖的精准性來協助他們工作和生活。同時,在景觀、道路和商業不斷變化的情況下,穀歌地圖的更新所面臨的技術挑戰,遠遠還沒有解決。為超過十億的穀歌地圖用戶創造更好的用戶體驗,一直是穀歌地面實況團隊追求的目標。

viaGoogle Research Blog,雷鋒網編譯

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

雷鋒網

更多精彩資訊,請來金融界網站(www.jrj.com.cn)

Next Article
喜欢就按个赞吧!!!
点击关闭提示