信息來(lái)源:安全牛
互聯(lián)網(wǎng)巨頭Google公司近日對(duì)外宣布了重磅消息:用于做人機(jī)判斷的圖片驗(yàn)證碼reCaptcha V1將于2018年3月31日完全停止服務(wù)。
reCaptcha V1
為什么圖片驗(yàn)證碼不再安全
圖片驗(yàn)證碼長(zhǎng)達(dá)十余年的統(tǒng)治最終走向終結(jié),主要的原因還是歸結(jié)于目前人工智能技術(shù)的飛速發(fā)展和知識(shí)的快速普及。隨著深度學(xué)習(xí)技術(shù)在圖像處理上越來(lái)越強(qiáng)大的表現(xiàn),圖片驗(yàn)證碼已經(jīng)沒(méi)有任何安全性可言。Google正因?yàn)榘l(fā)現(xiàn)了圖片驗(yàn)證碼已形同虛設(shè),才停止了此類驗(yàn)證碼的服務(wù)。
作為網(wǎng)絡(luò)安全的第一道“門”,驗(yàn)證碼已滲透到人們數(shù)字化生活的各個(gè)角落。全球企業(yè)主雖然知道驗(yàn)證碼的重要性,但仍有許多企業(yè)的網(wǎng)站&APP依然在使用圖片驗(yàn)證碼。而隨著“大門”的失守,意味著全球企業(yè)網(wǎng)站&APP的虛擬資產(chǎn)以及賬號(hào)隱私等重要信息面臨“裸奔”的風(fēng)險(xiǎn)!
圖片驗(yàn)證碼的克星——卷積神經(jīng)網(wǎng)絡(luò)
左:簡(jiǎn)單型圖片驗(yàn)證碼 右:復(fù)雜型圖片驗(yàn)證碼
為了應(yīng)對(duì)黑客的破解,圖片驗(yàn)證碼雖然通過(guò)增加背景干擾、擴(kuò)大字符范圍、字體類型多樣化等方法提升其被破解難度,但它的設(shè)計(jì)理念仍然停留在圖像學(xué)上,而利用現(xiàn)在的卷積神經(jīng)網(wǎng)絡(luò)(CNN)技術(shù)是完全可以破解的。
使用CNN對(duì)多位字符驗(yàn)證端到端的識(shí)別,對(duì)于圖片驗(yàn)證碼來(lái)說(shuō)是致命克星。CNN模式通用性強(qiáng)更換模式后,不用修改代碼就可直接訓(xùn)練出新的模型,但需要大量的帶標(biāo)注的數(shù)據(jù)。例如端到端的可能需要幾萬(wàn)帶標(biāo)記的先驗(yàn)數(shù)據(jù)集。
如果對(duì)試驗(yàn)CNN效果感興趣,可以直接用第三方標(biāo)準(zhǔn)庫(kù)無(wú)限生成帶標(biāo)記圖片。但是如果在具體的場(chǎng)景使用,則需要準(zhǔn)備大量的帶標(biāo)記數(shù)據(jù),像復(fù)雜型圖片驗(yàn)證碼,如果要達(dá)到90%以上的正確識(shí)別率,則需要5萬(wàn)帶標(biāo)記數(shù)據(jù)。下圖是生成的部分先驗(yàn)數(shù)據(jù)集:
圖片驗(yàn)證碼的識(shí)別方法
對(duì)于不同難易程度的圖片驗(yàn)證碼,有不同的處理方式,比如“蠻力型”的通用識(shí)別方法和“特事特辦”的特別識(shí)別方法。但是對(duì)于卷積神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),他們的區(qū)別只在于對(duì)樣本的依賴度不同。理論上,只要給充足的帶標(biāo)記樣本,神經(jīng)網(wǎng)絡(luò)都是有能力實(shí)現(xiàn)擬合。
此類識(shí)別方法就是流程化作業(yè),基本不太需要在編程上思考太多。
識(shí)別步驟如下:
-
下載一定數(shù)量的目標(biāo)驗(yàn)證碼圖片,數(shù)量根據(jù)驗(yàn)證圖片的復(fù)雜程度而定
-
準(zhǔn)備好一套標(biāo)準(zhǔn)的CNN圖像分類的項(xiàng)目模板,并做好相關(guān)的功課
-
對(duì)項(xiàng)目模板進(jìn)行簡(jiǎn)單的參數(shù)調(diào)整,以適配當(dāng)前問(wèn)題的圖片尺寸
-
將圖像輸入CNN,對(duì)輸出的結(jié)果和先驗(yàn)標(biāo)記的類型做誤差對(duì)比
-
不斷迭代生成模型
由Google主推的深度學(xué)習(xí)框架tensorflow的入門文檔里面就介紹了分別用矩陣回歸和CNN神經(jīng)網(wǎng)絡(luò)對(duì)手寫數(shù)字識(shí)別的方法。
當(dāng)然,關(guān)于如何獲取帶標(biāo)記的數(shù)據(jù),目前也有比較便宜的獲取渠道,直接在網(wǎng)上搜索“打碼平臺(tái)”后,可發(fā)現(xiàn)有許多提供 “人工智能”領(lǐng)域的“人工”打碼服務(wù)的服務(wù)商,并且大部分都有明碼標(biāo)價(jià)。對(duì)于圖片驗(yàn)證碼,基本上是幾分錢一張標(biāo)記圖。
此類識(shí)別方法仍然是基于深度學(xué)習(xí)這種通用方法來(lái)做的,只是我們可以將一些復(fù)雜問(wèn)題進(jìn)行適當(dāng)?shù)暮?jiǎn)化,這個(gè)思想有點(diǎn)類似于“降維”處理的意思。
理論上,利用深度學(xué)習(xí)能對(duì)絕大多數(shù)的線性或者非線性問(wèn)題實(shí)現(xiàn)非常好的擬合。
雖然問(wèn)題越復(fù)雜、數(shù)據(jù)需求量越大的現(xiàn)狀是無(wú)法避免的,但是我們可以做一些人為的自動(dòng)化工作來(lái)達(dá)到目標(biāo)。
比如像下圖中的驗(yàn)證碼,無(wú)論它們的色彩、字體及干擾項(xiàng)如何變化,字符之間容易分割的事實(shí)是無(wú)法被改變的。也就是說(shuō),此類驗(yàn)證碼可以很容易將一個(gè)本來(lái)要判定N位字符串的問(wèn)題簡(jiǎn)化為“判定1位字符,然后將N個(gè)這樣的圖片再組合起來(lái)”。這樣網(wǎng)絡(luò)的復(fù)雜度可以大大的簡(jiǎn)化,訓(xùn)練所需要的樣本數(shù)量及訓(xùn)練時(shí)長(zhǎng)都會(huì)大量減少。
如果驗(yàn)證碼圖片可以從N維“降維”到1維,并且字符的字體單一(以下圖為例),那么問(wèn)題就更簡(jiǎn)單了:只需為每個(gè)字符分類準(zhǔn)備一張圖片即可。例如你的驗(yàn)證碼范圍是[0,9],則只需要從下載的圖片集中對(duì)0~9這幾個(gè)數(shù)字每個(gè)標(biāo)記一張即可,然后就是使用一些普通的數(shù)據(jù)增強(qiáng)技術(shù):貼圖,綻放,上下自由截取,隨機(jī)噪點(diǎn)等等,可以生成無(wú)限多的數(shù)據(jù)集了。當(dāng)然,這些全部是由程序自動(dòng)化完成。
全球企業(yè)網(wǎng)站&APP該何去何從
由于大眾缺乏對(duì)互聯(lián)網(wǎng)交互安全的認(rèn)知,圖片驗(yàn)證碼仍然存在于互聯(lián)網(wǎng)的各個(gè)業(yè)務(wù)場(chǎng)景。然而,現(xiàn)在的圖片驗(yàn)證碼已無(wú)任何安全性可言,企業(yè)網(wǎng)絡(luò)資產(chǎn)安全將岌岌可危。
面對(duì)當(dāng)前風(fēng)險(xiǎn),全球近些年針對(duì)各類場(chǎng)景改進(jìn)的驗(yàn)證碼開(kāi)始出現(xiàn)。目前市面上的主流新型驗(yàn)證碼大致分為短信驗(yàn)證碼和行為式驗(yàn)證碼。其中,行為式驗(yàn)證碼這種帶點(diǎn)游戲性質(zhì)的交互驗(yàn)證方式,在保障安全的同時(shí),為用戶帶來(lái)了更有趣的驗(yàn)證過(guò)程,提升了用戶的交互體驗(yàn)。受到當(dāng)前各大企業(yè)網(wǎng)站&APP的青睞,算是當(dāng)前比較流行的一種驗(yàn)證碼。
行為式驗(yàn)證碼
根據(jù)極驗(yàn)CTO黃勝藍(lán)采訪報(bào)道了解到,在人機(jī)交互的過(guò)程中,由鼠標(biāo)移動(dòng)產(chǎn)生的行為軌跡是機(jī)器難以模仿的。因此結(jié)合人工智能技術(shù),并利用交互過(guò)程中產(chǎn)生的生物行為特征來(lái)進(jìn)行人機(jī)區(qū)分的行為式驗(yàn)證技術(shù)能在保障用戶體驗(yàn)最優(yōu)的基礎(chǔ)上,有效對(duì)惡意程序進(jìn)行封禁。
目前極驗(yàn)與Airbnb、AirAsia、新浪微博、銀聯(lián)商務(wù)、斗魚、36Kr、魅族、百勝、高德地圖等全球22萬(wàn)家企業(yè)網(wǎng)站&APP達(dá)成合作,每天提供超過(guò)7億次的安全防護(hù)。
不難發(fā)現(xiàn),隨著人工智能技術(shù)的發(fā)展和普及,未來(lái)互聯(lián)網(wǎng)交互安全領(lǐng)域的發(fā)展方向?qū)⑹前踩c體驗(yàn)的動(dòng)態(tài)平衡。驗(yàn)證碼作為互聯(lián)網(wǎng)交互安全領(lǐng)域的重要環(huán)節(jié),在安全性最優(yōu)的基礎(chǔ)上,零打擾、無(wú)感化將是未來(lái)驗(yàn)證碼的發(fā)展趨勢(shì)。