微軟這個AI App據說能讓盲人“聽見”世界? 評測發現,此理想還有點遠|潮科技

作者| 石筱玉

編輯| 傅博

Ann Taylor原本非常害怕家外面的世界。在她來到一個新地點的時候，她總是不知道這裡有誰、哪裡有空座位，因此經常不知所措。但她說，微軟的Seeing AI應用能夠讓她更有勇氣走出家門，面對未知的世界。

Ann Taylor是Seeing AI 應用研發小組的一名成員，同時也是一個盲人。在她來到微軟之初，她就對微軟研究者們計畫中的一套視障人士輔助工具產生了興趣。 Taylor親切地將這套工具稱為未來的“瑞士軍刀”（“Swiss Army knife”）。

Taylor對工程師們說：

“讓我們做一些真正對盲人群體有重要意義的事情吧！”

Mary Bellard（左）和AnneTaylor（右）是Seeing AI開發團隊的成員

在2016年3月，微軟在Build大會上講述了Taylor的故事微軟將這個應用稱作“給盲人群體的有聲相機”（Talking camera for the Blind），已經在app store獲得了超過四星的評分。

微軟將這個應用稱作“給盲人群體的有聲相機”（Talking camera for the Blind）。

在評分中，第一個“五星好評”表示自己並沒有嘗試過這個應用。但是給出這一評分的用戶rsturner2002寫道：

“我給這個app五星，是因為我覺得它是一個非常優秀、非常急需的應用。我希望它能夠滿足視障人士的需求，並且希望微軟能夠繼續改進它。 ”

用戶rsturner2002的評論。

Ann Taylor也分享過她對這一產品的期望。在微軟亞洲研究院發表的文章中，她說雖然早已有一些能夠幫助視障人士的手機應用和工具，但它們往往功能單一。而Seeing AI能夠自動讀出短語和長文章，識別身邊的朋友和環境，具有比大多數面向視障人士的應用更多的功能。

這些應用場景對於視障人士，尤其是盲人來說，一定有非常大的意義。 Seeing AI的這些理想真的能夠成真嗎？在實踐中，我們發現了不少驚喜，可是也遇到了一些問題。

一打開這個app，我們就能看到下方有五個主要功能：短語、檔、商品、人物與環境。其中， “環境”功能被標注為測試版。在點擊每一個按鈕後，會有語音提示我們選擇的功能是什麼。

app頁面下方的功能選擇按鈕。

“短語”功能可以為用戶讀出身邊環境中的單詞，比如在我們用鏡頭對準Exit標誌的時候， Seeing AI就會自動並且重複地讀出“Exit”這個詞。

在使用這個功能的時候，這個應用的識別敏感度比我們想像中高很多——我們曾經無意中將鏡頭湊近電腦鍵盤，應用甚至還能及時讀出“PrtScn”、“F2”等按鍵。

用“短語”功能，能夠讓Seeing AI讀出標誌牌上的文字。

不過，由於目前該系統僅僅支援英語，在我們將鏡頭面對中英交雜的文章時，

Seeing AI只會讀出英文部分。

“檔”功能在一定程度上和“短語”通用，不過“檔”加入了拍照這一過程。和一些掃描類app的使用方法類似，使用時Seeing AI會自動檢測紙張、書本的邊界，並語音提示“左、上邊界無法識別”等。在掃描完成後，應用會自動將照片內容轉換成文本，使用者隨後可以選擇讓它將文字讀出來。

經“檔”功能識別的Exit標誌。

但是在我們閉上眼睛、試圖只聽語音提示對書頁進行掃描的時候，還是遇到了一些困難。要是想完整地拍下書頁內容，手機要儘量和桌面平行，並且照片中必須出現整個頁面。在頁面提示看不到某一邊界的時候，我們並不知道是因為手機的角度問題，還是因為手機與書本的距離太近。在嘗試很多次之後，我們才成功地讓手機識別並自動拍下了書頁照片。

在使用中我們還碰到了另一個問題：對於字數很多的文檔頁面，Seeing AI在處理一段時間後經常會跳出“對不起，請求時間過長”的提示，並且直接放棄識別，而在短文章中並沒有出現這個問題。可能對於Seeing AI來說，識別較短文字還是目前的主要目標。

當我們試圖拍下整頁書之後，Seeing AI給了我們“對不起，請求時間過長”的提示。

“商品”功能和前兩個的使用方法類似，主要是通過條碼進行商品辨別。但是對於中國用戶來說，大部分國內的條碼並不能被Seeing AI讀取。在Mashable.com的評測中，這個app能夠成功讀取“黃油”、“啤酒”等商品的二維碼，並能夠載入成分和如何使用的相關資訊。

來自Mashable.com的測評圖片。圖片中，Seeing AI正確識別了啤酒品牌。

“人物”功能可以告訴用戶在哪個方位、多遠距離中有幾個人。在使用中我們發現，Seeing AI會運用人臉識別功能，將鏡頭中出現的人臉用方框框出來，判斷距離，並告訴使用者人臉處於螢幕的中間還是靠上、靠下位置。不過，當被識別的人以側面面對鏡頭的時候，Seeing AI就不能準確檢測到人臉了。

Seeing AI告訴我，馬斯克這張照片中檢測不到人臉，而馬斯克的正面照片就能被它清楚識別。

參與測評的我們一致認為，“環境”功能是最被視障人士需要的。如果能夠向Taylor所說的那樣，這個app能夠幫助她識別房屋內的設施、椅子的位置，那麼Seeing AI將會對Taylor和她的夥伴們有非常大的幫助。

在使用中，我們發現“環境”能夠對身邊的物體，例如人、電腦、書本，甚至裝飾品進行非常準確的識別，並且能將其識別出的關鍵片語成常用的短語，用語音告訴使用者。例如“桌上的一盆花”和“一個放了傢俱、有大窗戶的起居室”。

不過Seeing AI對於這個環境描述的細節也就到此為止了。當我們拍攝一把椅子的時候，配文是“一把椅子放在地面上”，並沒有告訴我們椅子的位置，和是否空著等資訊。可能對於“測試版”的環境功能來說，它的功能還有很大提升空間。

用Seeing AI識別一把空椅子，得出的結果是“一把椅子放在地面上”。

在測試中，我們發現Seeing AI對文字、圖片內容的識別敏感度、準確率都很高。儘管它對於一些環境細節仍然沒有辦法讀取，但是也能夠在很大程度上幫助視障群體。

然而，讓我們最不滿意的一點是，“環境”並不能像“短語”等功能一樣自動拍照並讀取相關資訊，而是需要使用者手動點擊螢幕上的相機按鈕。

螢幕左側有一個小藍圖示，這就是拍照按鈕。

拍照按鈕處於螢幕的最左側，是一個小的藍色按鈕。實際上，按動螢幕左側的大片區域都能夠控制拍照，但是在如何使用拍照功能這一點上，Seeing AI缺乏可靠的語音提示。在實際使用中，讓視障用戶拍了照之後才能進行環境識別，也顯得不太方便。

除了“環境”功能只能依靠拍照，“檔”、“人物”兩個功能既能夠讓用戶進行手動拍照，也能自動識別。而“短語”、“商品”和“人物”全部依靠自動識別。

對於Seeing AI的不足之處，微軟也在app的開啟頁面上這樣提示：

“Seeing AI並不總是準確。它不應被用於導航，也不應被用於可能讓你受到傷害的場景中。在使用Seeing AI時，用戶風險自負。”

Seeing AI在開啟頁面上的提示語。

我們覺得，儘管Seeing AI是“給盲人群體的有聲相機”，但是在視障群體真正能用上、用好Seeing AI這個應用之前，還是需要有人説明他們熟悉這個app的使用方法，以及各個按鍵的位置。在目前的版本中，Seeing AI操作中的語音提示還是不夠完備的。

實際上，Seeing AI是微軟十多年電腦視覺的研究成果。據Taylor所說，Seeing AI已經是市面上針對視障群體，功能最齊備的一個手機應用。微軟也一直致力於利用AI這項技術破解醫療難題，改善各類人群的生活。

Seeing AI應用開啟頁面中列舉的多種功能。

微軟在今年2月啟動了Healthcare NExT 計畫，和Google、IBM等公司一樣，期望能夠將AI運用於醫療行業。在今年5月，微軟還曾設計了一個可穿戴設備，説明帕金森患者Emma Lawton控制病情所帶來的抖動症狀。

微軟為帕金森患者Emma Lawton設計的可穿戴設備。

儘管微軟離“讓Seeing AI成為盲人群體的眼睛”這一設想可能還有點遠，但是Seeing AI已經擁有了較為完備的功能，也讓我們對它的性能提升有非常大的期待。對於視障群體來說，微軟這樣的大公司能夠根據他們的需求開發對應的產品，這也讓他們和獨立、便利的生活又近了一步。

Taylor本人也對Seeing AI這個產品頗為自豪。她說：

“我們最後真的推出了這款如此寶貴的‘瑞士軍刀’，讓其他視障人士也能更好地欣賞這個世界的美好。”

這裡。目前暫時還沒有安卓版本。