信息來(lái)源:企業(yè)網(wǎng)
美國(guó)國(guó)務(wù)院每年對(duì)20億封電子郵件進(jìn)行分類(lèi)是一項(xiàng)艱巨的任務(wù)。目前,其已經(jīng)看到了機(jī)器學(xué)習(xí)和自動(dòng)化的好處。
美國(guó)安全部門(mén)的協(xié)調(diào)失敗已經(jīng)在諸如9/11襲擊事件之后被廣泛報(bào)道。美國(guó)安全部門(mén)工作人員可能會(huì)獲得防止攻擊所需的知識(shí),但是缺乏協(xié)調(diào),導(dǎo)致這種情況沒(méi)有應(yīng)該擁有的人才。結(jié)果,發(fā)生了本可預(yù)防的暴行。
最近一篇文章探討了如何使用人工智能來(lái)改善美國(guó)國(guó)務(wù)院的內(nèi)部流程。該部門(mén)這項(xiàng)工作特別感興趣的是,如何更好地正確分類(lèi)每年在內(nèi)部生成的大量電子郵件。
進(jìn)行分類(lèi)
該部門(mén)被認(rèn)為每年產(chǎn)生約20億封電子郵件,其中許多包含分類(lèi)信息。然而,了解(并因此正確地標(biāo)記)秘需要分類(lèi)的內(nèi)容是一項(xiàng)艱巨的工作。
研究人員使用機(jī)器學(xué)習(xí)來(lái)改善這一點(diǎn)。他們開(kāi)始通過(guò)訓(xùn)練他們的算法從上世紀(jì)70年代美國(guó)國(guó)務(wù)院和海外外交官之間的通訊的大約一百萬(wàn)封郵件分類(lèi)。每封郵件以前都標(biāo)記為秘密,機(jī)密,有限的官方使用或未分類(lèi)。
在訓(xùn)練了系統(tǒng)之后,他們?cè)O(shè)置這個(gè)系統(tǒng)工作,以查看它是否可以正確地分類(lèi)文檔,特別是它是否可以正確地標(biāo)記內(nèi)容應(yīng)該是分類(lèi)狀態(tài)。
該算法在這樣做時(shí)證明是特別有效的,其在分類(lèi)內(nèi)容的成功率為90%,錯(cuò)誤率僅為11%。更重要的是,團(tuán)隊(duì)認(rèn)為他們可以用更好的數(shù)據(jù)做更好的工作。
什么使這些內(nèi)容進(jìn)行分類(lèi)?
除了對(duì)內(nèi)容進(jìn)行分類(lèi)的能力之外,這項(xiàng)工作還揭示了一個(gè)有助于其安全狀態(tài)的信息方面的新亮點(diǎn)。例如,出現(xiàn)了某些單詞的頻率是整個(gè)消息的安全狀態(tài)的最佳指示符,而發(fā)送者和接收者更不可靠。
有趣的是,機(jī)器分配的一些錯(cuò)誤標(biāo)簽實(shí)際上被證明是人為的錯(cuò)誤。換句話(huà)說(shuō),他們應(yīng)該被分類(lèi),但人類(lèi)卻標(biāo)記了它們。
這表明,機(jī)器可以在確保內(nèi)容被正確分類(lèi)方面發(fā)揮越來(lái)越重要的作用,但是為了使其有效,人們需要有良好的質(zhì)量數(shù)據(jù)來(lái)訓(xùn)練機(jī)器。
此外,該工作還具有揭示數(shù)據(jù)共享中的模式的潛力,以及實(shí)際上在人們的安全服務(wù)中的數(shù)據(jù)移除,其本身可能具有安全影響。畢竟,分類(lèi)內(nèi)容有丟失的習(xí)慣。
雖然這無(wú)疑是有趣的,但也很清楚,這樣的過(guò)程是一個(gè)非常早期的階段。然而,鑒于美國(guó)國(guó)務(wù)院每年花費(fèi)數(shù)十億美元對(duì)文件進(jìn)行分類(lèi),這項(xiàng)工作有希望值得進(jìn)一步發(fā)展。