微軟推出了一款 App 可以幫你讀出全世界

對于一些視力缺陷者來說,日常生活的衣食住行中會存在相當多的麻煩。而現在,微軟推出了一款名叫 Seeing AI 的應用,可將視覺世界變成一種可聽見的語音體驗,這款應用或許能夠為他們提供一定的幫助。

Seeing AI 支持人物、短文、文本、條形碼以及場景的識別,用戶只需要拿住 iPhone 設備在四周移動,應用會通過神經網絡技術,將這些信息轉化為語音,讓用戶可以「聽到」周圍的環境情況,從而為視力缺陷者進行服務,Seeing AI 大大方便了視力障礙者的日常生活。

未標題-1.jpg

下載地址見文末

人物及周圍環境的掃描

對人物的識別是微軟利用圖像識別工具提供更深入的圖片解釋。識別人物之后,Seeing AI 不僅可以判斷此人的性別以及大概的年齡,甚至可以對此人的外貌以及面部表情進行表述。看看下圖 Seeing AI 對小哥的描述:一位滿頭黑發表情自然的男士,識別結果還是很準確的。

未命名_meitu_0445.jpg

此外,使用 Seeing AI 對周圍環境進行掃描,還能了解到周圍有多少人,這些人所在的位置以及與你的距離,當然還可知道這些人的面部表情。Seeing AI 還有一個新奇之處,你可以教 Seeing AI 去識別某個特定的人物。進入「臉部識別」功能,對某個人物的臉部進行三次拍攝,并做相應的姓名標注即可完成該人物信息的錄入,當你再次識別此人時,Seeing AI 就會說出他的名字。

短文內容的自動識別

短文識別功能簡單來講就是哪里看不清拍哪里,這個功能結合了圖像識別技術與自然語言處理技術,將文本信息轉化為語音信息。這一功能可以幫助視障人士獲得對圖像的準確描述,還可能幫助那些需要圖像信息卻無法直接看到圖像的人——比如正在開車的司機。

IMG_1764.PNG

在測試的過程中挖 App 君發現,在 Seeing AI 在「朗讀」文本的過程中,如果攝像頭捕捉到了更加清晰的文本圖像,那么 Seeing AI 會從頭開始「翻譯」這段文本。經過測試會發現 Seeing AI 識別效果很好,在識別讀出內容的過程中幾乎沒有錯誤。但在語言系統方面有些遺憾,應用目前只可以識別英文和阿拉伯數字,并不支持中文及其他語言的識別。

文件和條形碼的探測

文件識別的操作相對復雜一些,將攝像頭對準文本,Seeing AI 會引導你的手機放置,直到所選取的文本周圍出現邊緣,聽到「Hold steady」的聲音,然后拍攝進行文本識別。在文本識別之后,還可以使用 VoiceOver 功能對文本進行操作。

未命名_meitu_0122.jpg

將手機攝像頭對準條形碼則可以對其進行識別,在掃碼的一瞬間會聽到嗶嗶的聲音,條形碼檢測成功后,Seeing AI 會說出產品的名稱。如果你想了解更多有關產品的信息,則可選擇點擊右下角的按鈕進行詳細的了解。

復雜場景的描述

場景的識別是讓計算機用更加人性化的方式去描述圖像,Seeing AI 會對識別的場景進行詳細的描述。比如下圖,Seeing AI 不僅會告訴你這是一臺筆記本電腦,它還會告訴你這臺電腦是以打開的狀態放置在桌上這樣詳細的描述。不過場景識別的功能目前還處于測試階段,所以場景識別的結果并不總是正確的,相信微軟之后會完善這個功能。

IMG_1763.PNG

小結

Seeing AI 實現了「語音世界的魔法」,利用手機攝像頭將文字、人物、商品、場景等信息轉化為語音,讓更多的弱視群體盡可能的「獨立」,有助于為視障人士營造更公平的環境,與正常生活縮小差距。Seeing AI 的出現會在一定程度上讓更多的人利用人工智能技術來造福人類。

Seeing AI 的部分應用可在離線狀態下使用,但是在語音方面暫時只支持英文系統,對該應用感興趣的小伙伴可以前去美區 App Store 下載體驗。

下載地址:iOS