登錄 / 注冊(cè)

實(shí)習(xí)生留給谷歌地圖的算法被完善,可識(shí)別800億街景圖文字

0評(píng)論 2017-05-05 15:17:30

收藏 | 點(diǎn)贊

  
實(shí)習(xí)生留給谷歌地圖的算法被完善,可識(shí)別800億街景圖文字

本文首發(fā)于大數(shù)據(jù)文摘微信公眾平臺(tái)(ID:BigDataDigest),轉(zhuǎn)載請(qǐng)注明來(lái)源,翻譯姜范波 Aileen。

導(dǎo)讀:

2014年,還在谷歌做暑期實(shí)習(xí)生的Ian Goodfellow開發(fā)實(shí)施了閱讀街景圖中路標(biāo)的數(shù)字的方法。如今,新的一群谷歌實(shí)習(xí)生借助深度學(xué)習(xí)和TPU的強(qiáng)大運(yùn)算能力完善了大神當(dāng)年的算法。

新的機(jī)器學(xué)習(xí)框架下,谷歌地圖可以準(zhǔn)確識(shí)別超過(guò)800億戰(zhàn)的街景視圖圖片中的文字, 為十多億谷歌地圖用戶創(chuàng)造更好的體驗(yàn)。

實(shí)習(xí)生留給谷歌地圖的算法被完善,可識(shí)別800億街景圖文字Ian Goodfellow自己也發(fā)推特支持谷歌地圖新算法,緬懷當(dāng)年自己做實(shí)習(xí)生的創(chuàng)作 。

識(shí)別并提取圖片有效信息是谷歌地圖發(fā)展的新方向之一 

谷歌地圖每天都會(huì)向數(shù)百萬(wàn)人提供有用的向?qū)А?shí)時(shí)交通信息和商業(yè)信息。為了提供最好的用戶體驗(yàn),這些信息必須不斷地反映持續(xù)變化的世界。雖然街景汽車每天收集數(shù)百萬(wàn)張圖片,但是無(wú)法手動(dòng)分析迄今為止收集的超過(guò)800億張高分辨率圖片,以便為谷歌地圖找到新的或更新的信息。Google地面實(shí)況團(tuán)隊(duì)(Ground Truth team)的目標(biāo)之一是使我們可以自動(dòng)從含有地理位置信息的圖片中提取信息,從而改進(jìn)谷歌地圖。

在《從街景圖片中提取基于注意力的結(jié)構(gòu)化信息》論文中,我們描述了在許多國(guó)家使用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)地從非常具有挑戰(zhàn)性的街景圖片中準(zhǔn)確讀取街道名稱的方法。我們的算法在具有挑戰(zhàn)性的法國(guó)街頭標(biāo)志(FSNS)數(shù)據(jù)集上實(shí)現(xiàn)了84.2%的準(zhǔn)確性,顯著優(yōu)于以前的最先進(jìn)的系統(tǒng)。重要的是,我們的系統(tǒng)很容易擴(kuò)展,以便從街景圖片中提取其他類型的信息,現(xiàn)在,它可以幫助我們從商店門面圖片中自動(dòng)提取商店名稱。 我們很激動(dòng)地宣布,這個(gè)模型現(xiàn)在是開源的!

實(shí)習(xí)生留給谷歌地圖的算法被完善,可識(shí)別800億街景圖文字來(lái)自FSNS數(shù)據(jù)集的街道名稱示例,由我們的系統(tǒng)正確標(biāo)記。同一個(gè)標(biāo)識(shí)最多提供四個(gè)視圖。

自然環(huán)境中的文本識(shí)別是一個(gè)具有挑戰(zhàn)性的計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)問題。雖然傳統(tǒng)的光學(xué)字符識(shí)別(OCR)系統(tǒng)主要集中在從掃描的文檔中提取文本,但是由于自然場(chǎng)景獲取的文本存在視覺偽像(如失真,遮擋,方向模糊,雜亂的背景或不同的視角)而更具挑戰(zhàn)性。解決這一研究挑戰(zhàn)的努力源自2008年,當(dāng)時(shí)我們使用神經(jīng)網(wǎng)絡(luò)來(lái)模糊掉街景圖片中的面孔和車牌,以保護(hù)用戶的隱私。從這個(gè)初步研究中,我們意識(shí)到,使用足夠多的帶標(biāo)簽的數(shù)據(jù),我們不僅可以使用機(jī)器學(xué)習(xí)來(lái)保護(hù)用戶的隱私,還可以通過(guò)獲取最新的相關(guān)信息來(lái)自動(dòng)改進(jìn)谷歌地圖。

實(shí)習(xí)生牽起街景數(shù)字?jǐn)?shù)據(jù)集閱讀方法項(xiàng)目 

2014年,谷歌的地面實(shí)況小組發(fā)布了最新的街景數(shù)字(SVHN)數(shù)據(jù)集閱讀方法,該方法由當(dāng)時(shí)的暑期實(shí)習(xí)生(現(xiàn)為Google員工)Ian Goodfellow實(shí)施。這項(xiàng)工作不僅具有學(xué)術(shù)意義,而且對(duì)制作更為準(zhǔn)確的谷歌地圖至關(guān)重要。今天,全球有三分之一以上的地址由于采用了這一系統(tǒng)而得到改進(jìn)。在一些國(guó)家,如巴西,該算法已經(jīng)改善了谷歌地圖中90%以上的地址,大大提高了我們地圖的可用性。

理所當(dāng)然地,下一個(gè)步驟是將這些技術(shù)擴(kuò)展到街道名稱。為了解決這個(gè)問題,我們創(chuàng)建并發(fā)布了法國(guó)街名標(biāo)志數(shù)據(jù)集(FSNS),這是一個(gè)超過(guò)100萬(wàn)個(gè)街道名稱的大型訓(xùn)練數(shù)據(jù)集。FSNS數(shù)據(jù)集是一項(xiàng)多年努力,旨在允許任何人在具有挑戰(zhàn)性和真實(shí)用途的情況下改進(jìn)其OCR模型。FSNS數(shù)據(jù)集比SVHN大得多,更具挑戰(zhàn)性,因?yàn)閷?duì)街道標(biāo)志的準(zhǔn)確識(shí)別可能需要組合許多不同圖片的信息。

實(shí)習(xí)生留給谷歌地圖的算法被完善,可識(shí)別800億街景圖文字這些是由我們的系統(tǒng)通過(guò)選擇,或結(jié)合對(duì)圖片的理解而正確標(biāo)記的具有挑戰(zhàn)性的標(biāo)識(shí)示例。 第二個(gè)例子本身是極具挑戰(zhàn)性的,但該模型在之前學(xué)習(xí)了一種語(yǔ)言模型,使之能夠消除模糊性并正確閱讀街道名稱。 

通過(guò)這個(gè)訓(xùn)練集,谷歌實(shí)習(xí)生Zbigniew Wojna 2016年花了一個(gè)暑假,開發(fā)了一個(gè)深度學(xué)習(xí)模型架構(gòu),自動(dòng)標(biāo)注了新的街景圖片。 我們的新模型有一個(gè)非常有意思的優(yōu)點(diǎn),它可以將文本標(biāo)準(zhǔn)化,與我們的命名習(xí)慣保持一致,并且可以忽略無(wú)關(guān)的外部文本。

實(shí)習(xí)生留給谷歌地圖的算法被完善,可識(shí)別800億街景圖文字在這個(gè)例子中,模型并沒有被混淆,因?yàn)橛袃蓚€(gè)街道名稱,正確地將“Av”標(biāo)準(zhǔn)化為“Avenue”,并正確地忽略了數(shù)字“1600”。

項(xiàng)目觸角仍在不斷延伸中 

雖然這個(gè)模型是準(zhǔn)確的,但確實(shí)顯示了15.8%的錯(cuò)誤率。然而,在分析錯(cuò)誤案例后,我們發(fā)現(xiàn)其中48%是由于地面實(shí)況錯(cuò)誤,突出表明該模型與標(biāo)簽質(zhì)量相一致。(對(duì)錯(cuò)誤率的完整分析可以在我們的論文中找到)。

這個(gè)新系統(tǒng)與提取街道號(hào)碼的系統(tǒng)相結(jié)合,使我們能夠直接從圖片創(chuàng)建新的地址,我們以前不知道街道的名稱或地址的位置。現(xiàn)在,只要街景汽車在新建的道路上行駛,我們的系統(tǒng)就可以分析成千上萬(wàn)的被捕獲的圖片,提取街道名稱和數(shù)字,并在谷歌地圖上自動(dòng)正確創(chuàng)建和定位新地址。

但是,自動(dòng)創(chuàng)建谷歌地圖的地址是不夠的——我們還希望能夠通過(guò)店鋪名稱為商家提供導(dǎo)航。在2015年,我們發(fā)表了《街景圖片大規(guī)模發(fā)現(xiàn)商家》的文章,提出了一種在街景圖片中準(zhǔn)確識(shí)別商店店面標(biāo)志的方法。然而,一旦檢測(cè)到商店門面,仍然需要準(zhǔn)確地提取其名稱以供使用——模型必須確定哪個(gè)文本是商家名稱,哪個(gè)文本是不相關(guān)的。我們將其稱為從圖片中提取“結(jié)構(gòu)化文本”。它不僅僅是文本,它還是附有語(yǔ)義的文本。

使用不同的訓(xùn)練數(shù)據(jù),用于讀取街道名稱的模型架構(gòu)也可用于從商家外觀圖片中精確地提取商家名稱。在這種特殊情況下,我們能夠僅僅提取商家名稱,來(lái)驗(yàn)證谷歌地圖中是否已經(jīng)存在該商家,從而使我們能夠獲得更準(zhǔn)確和最新的商家列表。

實(shí)習(xí)生留給谷歌地圖的算法被完善,可識(shí)別800億街景圖文字缺失位置信息的情況下,系統(tǒng)能夠預(yù)測(cè)圖片中商店的名稱為“Zelina Pneus”。 模型沒有被商店所賣的輪胎品牌(Firestone)所迷惑。

在超過(guò)800億的街景視圖圖片中應(yīng)用這些大型模型需要大量的計(jì)算能力。 這就是為什么地面實(shí)況團(tuán)隊(duì)是今年早些時(shí)候宣布的谷歌 TPU的第一個(gè)用戶,這樣大大降低了我們的計(jì)算成本。

人們依靠谷歌地圖的準(zhǔn)確性來(lái)獲得幫助。 在保持谷歌地圖與城市不斷變化的環(huán)境保持一致的同時(shí),道路和商家提出了一個(gè)遠(yuǎn)未解決的技術(shù)挑戰(zhàn),地面實(shí)況團(tuán)隊(duì)的目標(biāo)是推動(dòng)機(jī)器學(xué)習(xí)中的劃時(shí)代的創(chuàng)新, 為十多億谷歌地圖用戶創(chuàng)造更好的體驗(yàn)。

0 條評(píng)論

分享
公眾號(hào)
公眾號(hào)二維碼

? 2017 志進(jìn)科技 版權(quán)所有 上海志進(jìn)信息科技有限公司 備案號(hào)滬ICP備14017051號(hào)-2