您的位置:首頁>正文

微軟這個AI App據說能讓盲人“聽見”世界? 評測發現,此理想還有點遠|潮科技

作者| 石筱玉

編輯| 傅博

Ann Taylor原本非常害怕家外面的世界。 在她來到一個新地點的時候, 她總是不知道這裡有誰、哪裡有空座位, 因此經常不知所措。 但她說, 微軟的Seeing AI應用能夠讓她更有勇氣走出家門, 面對未知的世界。

Ann Taylor是Seeing AI 應用研發小組的一名成員, 同時也是一個盲人。 在她來到微軟之初, 她就對微軟研究者們計畫中的一套視障人士輔助工具產生了興趣。 Taylor親切地將這套工具稱為未來的“瑞士軍刀”(“Swiss Army knife”)。

Taylor對工程師們說:

“讓我們做一些真正對盲人群體有重要意義的事情吧!”

Mary Bellard(左)和AnneTaylor(右)是Seeing AI開發團隊的成員

在2016年3月, 微軟在Build大會上講述了Taylor的故事微軟將這個應用稱作“給盲人群體的有聲相機”(Talking camera for the Blind), 已經在app store獲得了超過四星的評分。

微軟將這個應用稱作“給盲人群體的有聲相機”(Talking camera for the Blind)。

在評分中, 第一個“五星好評”表示自己並沒有嘗試過這個應用。 但是給出這一評分的用戶rsturner2002寫道:

“我給這個app五星, 是因為我覺得它是一個非常優秀、非常急需的應用。 我希望它能夠滿足視障人士的需求, 並且希望微軟能夠繼續改進它。 ”

用戶rsturner2002的評論。

Ann Taylor也分享過她對這一產品的期望。 在微軟亞洲研究院發表的文章中, 她說雖然早已有一些能夠幫助視障人士的手機應用和工具, 但它們往往功能單一。 而Seeing AI能夠自動讀出短語和長文章, 識別身邊的朋友和環境, 具有比大多數面向視障人士的應用更多的功能。

這些應用場景對於視障人士, 尤其是盲人來說, 一定有非常大的意義。 Seeing AI的這些理想真的能夠成真嗎?在實踐中, 我們發現了不少驚喜, 可是也遇到了一些問題。

一打開這個app, 我們就能看到下方有五個主要功能:短語、檔、商品、人物與環境。 其中, “環境”功能被標注為測試版。 在點擊每一個按鈕後, 會有語音提示我們選擇的功能是什麼。

app頁面下方的功能選擇按鈕。

“短語”功能可以為用戶讀出身邊環境中的單詞, 比如在我們用鏡頭對準Exit標誌的時候, Seeing AI就會自動並且重複地讀出“Exit”這個詞。

在使用這個功能的時候, 這個應用的識別敏感度比我們想像中高很多——我們曾經無意中將鏡頭湊近電腦鍵盤, 應用甚至還能及時讀出“PrtScn”、“F2”等按鍵。

用“短語”功能, 能夠讓Seeing AI讀出標誌牌上的文字。

不過, 由於目前該系統僅僅支援英語, 在我們將鏡頭面對中英交雜的文章時,

Seeing AI只會讀出英文部分。

“檔”功能在一定程度上和“短語”通用, 不過“檔”加入了拍照這一過程。 和一些掃描類app的使用方法類似, 使用時Seeing AI會自動檢測紙張、書本的邊界, 並語音提示“左、上邊界無法識別”等。 在掃描完成後, 應用會自動將照片內容轉換成文本, 使用者隨後可以選擇讓它將文字讀出來。

經“檔”功能識別的Exit標誌。

但是在我們閉上眼睛、試圖只聽語音提示對書頁進行掃描的時候,還是遇到了一些困難。要是想完整地拍下書頁內容,手機要儘量和桌面平行,並且照片中必須出現整個頁面。在頁面提示看不到某一邊界的時候,我們並不知道是因為手機的角度問題,還是因為手機與書本的距離太近。在嘗試很多次之後,我們才成功地讓手機識別並自動拍下了書頁照片。

在使用中我們還碰到了另一個問題:對於字數很多的文檔頁面,Seeing AI在處理一段時間後經常會跳出“對不起,請求時間過長”的提示,並且直接放棄識別,而在短文章中並沒有出現這個問題。可能對於Seeing AI來說,識別較短文字還是目前的主要目標。

當我們試圖拍下整頁書之後,Seeing AI給了我們“對不起,請求時間過長”的提示。

“商品”功能和前兩個的使用方法類似,主要是通過條碼進行商品辨別。但是對於中國用戶來說,大部分國內的條碼並不能被Seeing AI讀取。在Mashable.com的評測中,這個app能夠成功讀取“黃油”、“啤酒”等商品的二維碼,並能夠載入成分和如何使用的相關資訊。

來自Mashable.com的測評圖片。圖片中,Seeing AI正確識別了啤酒品牌。

“人物”功能可以告訴用戶在哪個方位、多遠距離中有幾個人。在使用中我們發現,Seeing AI會運用人臉識別功能,將鏡頭中出現的人臉用方框框出來,判斷距離,並告訴使用者人臉處於螢幕的中間還是靠上、靠下位置。不過,當被識別的人以側面面對鏡頭的時候,Seeing AI就不能準確檢測到人臉了。

Seeing AI告訴我,馬斯克這張照片中檢測不到人臉,而馬斯克的正面照片就能被它清楚識別。

參與測評的我們一致認為,“環境”功能是最被視障人士需要的。如果能夠向Taylor所說的那樣,這個app能夠幫助她識別房屋內的設施、椅子的位置,那麼Seeing AI將會對Taylor和她的夥伴們有非常大的幫助。

在使用中,我們發現“環境”能夠對身邊的物體,例如人、電腦、書本,甚至裝飾品進行非常準確的識別,並且能將其識別出的關鍵片語成常用的短語,用語音告訴使用者。例如“桌上的一盆花”和“一個放了傢俱、有大窗戶的起居室”。

不過Seeing AI對於這個環境描述的細節也就到此為止了。當我們拍攝一把椅子的時候,配文是“一把椅子放在地面上”,並沒有告訴我們椅子的位置,和是否空著等資訊。可能對於“測試版”的環境功能來說,它的功能還有很大提升空間。

用Seeing AI識別一把空椅子,得出的結果是“一把椅子放在地面上”。

在測試中,我們發現Seeing AI對文字、圖片內容的識別敏感度、準確率都很高。儘管它對於一些環境細節仍然沒有辦法讀取,但是也能夠在很大程度上幫助視障群體。

然而,讓我們最不滿意的一點是,“環境”並不能像“短語”等功能一樣自動拍照並讀取相關資訊,而是需要使用者手動點擊螢幕上的相機按鈕。

螢幕左側有一個小藍圖示,這就是拍照按鈕。

拍照按鈕處於螢幕的最左側,是一個小的藍色按鈕。實際上,按動螢幕左側的大片區域都能夠控制拍照,但是在如何使用拍照功能這一點上,Seeing AI缺乏可靠的語音提示。在實際使用中,讓視障用戶拍了照之後才能進行環境識別,也顯得不太方便。

除了“環境”功能只能依靠拍照,“檔”、“人物”兩個功能既能夠讓用戶進行手動拍照,也能自動識別。而“短語”、“商品”和“人物”全部依靠自動識別。

對於Seeing AI的不足之處,微軟也在app的開啟頁面上這樣提示:

“Seeing AI並不總是準確。它不應被用於導航,也不應被用於可能讓你受到傷害的場景中。在使用Seeing AI時,用戶風險自負。”

Seeing AI在開啟頁面上的提示語。

我們覺得,儘管Seeing AI是“給盲人群體的有聲相機”,但是在視障群體真正能用上、用好Seeing AI這個應用之前,還是需要有人説明他們熟悉這個app的使用方法,以及各個按鍵的位置。在目前的版本中,Seeing AI操作中的語音提示還是不夠完備的。

實際上,Seeing AI是微軟十多年電腦視覺的研究成果。據Taylor所說,Seeing AI已經是市面上針對視障群體,功能最齊備的一個手機應用。微軟也一直致力於利用AI這項技術破解醫療難題,改善各類人群的生活。

Seeing AI應用開啟頁面中列舉的多種功能。

微軟在今年2月啟動了Healthcare NExT 計畫,和Google、IBM等公司一樣,期望能夠將AI運用於醫療行業。在今年5月,微軟還曾設計了一個可穿戴設備,説明帕金森患者Emma Lawton控制病情所帶來的抖動症狀。

微軟為帕金森患者Emma Lawton設計的可穿戴設備。

儘管微軟離“讓Seeing AI成為盲人群體的眼睛”這一設想可能還有點遠,但是Seeing AI已經擁有了較為完備的功能,也讓我們對它的性能提升有非常大的期待。對於視障群體來說,微軟這樣的大公司能夠根據他們的需求開發對應的產品,這也讓他們和獨立、便利的生活又近了一步。

Taylor本人也對Seeing AI這個產品頗為自豪。她說:

“我們最後真的推出了這款如此寶貴的‘瑞士軍刀’,讓其他視障人士也能更好地欣賞這個世界的美好。”

這裡。目前暫時還沒有安卓版本。

經“檔”功能識別的Exit標誌。

但是在我們閉上眼睛、試圖只聽語音提示對書頁進行掃描的時候,還是遇到了一些困難。要是想完整地拍下書頁內容,手機要儘量和桌面平行,並且照片中必須出現整個頁面。在頁面提示看不到某一邊界的時候,我們並不知道是因為手機的角度問題,還是因為手機與書本的距離太近。在嘗試很多次之後,我們才成功地讓手機識別並自動拍下了書頁照片。

在使用中我們還碰到了另一個問題:對於字數很多的文檔頁面,Seeing AI在處理一段時間後經常會跳出“對不起,請求時間過長”的提示,並且直接放棄識別,而在短文章中並沒有出現這個問題。可能對於Seeing AI來說,識別較短文字還是目前的主要目標。

當我們試圖拍下整頁書之後,Seeing AI給了我們“對不起,請求時間過長”的提示。

“商品”功能和前兩個的使用方法類似,主要是通過條碼進行商品辨別。但是對於中國用戶來說,大部分國內的條碼並不能被Seeing AI讀取。在Mashable.com的評測中,這個app能夠成功讀取“黃油”、“啤酒”等商品的二維碼,並能夠載入成分和如何使用的相關資訊。

來自Mashable.com的測評圖片。圖片中,Seeing AI正確識別了啤酒品牌。

“人物”功能可以告訴用戶在哪個方位、多遠距離中有幾個人。在使用中我們發現,Seeing AI會運用人臉識別功能,將鏡頭中出現的人臉用方框框出來,判斷距離,並告訴使用者人臉處於螢幕的中間還是靠上、靠下位置。不過,當被識別的人以側面面對鏡頭的時候,Seeing AI就不能準確檢測到人臉了。

Seeing AI告訴我,馬斯克這張照片中檢測不到人臉,而馬斯克的正面照片就能被它清楚識別。

參與測評的我們一致認為,“環境”功能是最被視障人士需要的。如果能夠向Taylor所說的那樣,這個app能夠幫助她識別房屋內的設施、椅子的位置,那麼Seeing AI將會對Taylor和她的夥伴們有非常大的幫助。

在使用中,我們發現“環境”能夠對身邊的物體,例如人、電腦、書本,甚至裝飾品進行非常準確的識別,並且能將其識別出的關鍵片語成常用的短語,用語音告訴使用者。例如“桌上的一盆花”和“一個放了傢俱、有大窗戶的起居室”。

不過Seeing AI對於這個環境描述的細節也就到此為止了。當我們拍攝一把椅子的時候,配文是“一把椅子放在地面上”,並沒有告訴我們椅子的位置,和是否空著等資訊。可能對於“測試版”的環境功能來說,它的功能還有很大提升空間。

用Seeing AI識別一把空椅子,得出的結果是“一把椅子放在地面上”。

在測試中,我們發現Seeing AI對文字、圖片內容的識別敏感度、準確率都很高。儘管它對於一些環境細節仍然沒有辦法讀取,但是也能夠在很大程度上幫助視障群體。

然而,讓我們最不滿意的一點是,“環境”並不能像“短語”等功能一樣自動拍照並讀取相關資訊,而是需要使用者手動點擊螢幕上的相機按鈕。

螢幕左側有一個小藍圖示,這就是拍照按鈕。

拍照按鈕處於螢幕的最左側,是一個小的藍色按鈕。實際上,按動螢幕左側的大片區域都能夠控制拍照,但是在如何使用拍照功能這一點上,Seeing AI缺乏可靠的語音提示。在實際使用中,讓視障用戶拍了照之後才能進行環境識別,也顯得不太方便。

除了“環境”功能只能依靠拍照,“檔”、“人物”兩個功能既能夠讓用戶進行手動拍照,也能自動識別。而“短語”、“商品”和“人物”全部依靠自動識別。

對於Seeing AI的不足之處,微軟也在app的開啟頁面上這樣提示:

“Seeing AI並不總是準確。它不應被用於導航,也不應被用於可能讓你受到傷害的場景中。在使用Seeing AI時,用戶風險自負。”

Seeing AI在開啟頁面上的提示語。

我們覺得,儘管Seeing AI是“給盲人群體的有聲相機”,但是在視障群體真正能用上、用好Seeing AI這個應用之前,還是需要有人説明他們熟悉這個app的使用方法,以及各個按鍵的位置。在目前的版本中,Seeing AI操作中的語音提示還是不夠完備的。

實際上,Seeing AI是微軟十多年電腦視覺的研究成果。據Taylor所說,Seeing AI已經是市面上針對視障群體,功能最齊備的一個手機應用。微軟也一直致力於利用AI這項技術破解醫療難題,改善各類人群的生活。

Seeing AI應用開啟頁面中列舉的多種功能。

微軟在今年2月啟動了Healthcare NExT 計畫,和Google、IBM等公司一樣,期望能夠將AI運用於醫療行業。在今年5月,微軟還曾設計了一個可穿戴設備,説明帕金森患者Emma Lawton控制病情所帶來的抖動症狀。

微軟為帕金森患者Emma Lawton設計的可穿戴設備。

儘管微軟離“讓Seeing AI成為盲人群體的眼睛”這一設想可能還有點遠,但是Seeing AI已經擁有了較為完備的功能,也讓我們對它的性能提升有非常大的期待。對於視障群體來說,微軟這樣的大公司能夠根據他們的需求開發對應的產品,這也讓他們和獨立、便利的生活又近了一步。

Taylor本人也對Seeing AI這個產品頗為自豪。她說:

“我們最後真的推出了這款如此寶貴的‘瑞士軍刀’,讓其他視障人士也能更好地欣賞這個世界的美好。”

這裡。目前暫時還沒有安卓版本。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示