NSA使用大數(shù)據(jù)做監(jiān)控已經(jīng)人所共知了,雖然NSA有能力從電話網(wǎng)絡(luò)和互聯(lián)網(wǎng)當(dāng)中搜集海量數(shù)據(jù),但是直到最近NSA都沒辦法真正從全部數(shù)據(jù)中截獲并永久存儲這些數(shù)據(jù),不過倒是谷歌和雅虎的研究結(jié)果解決了這些問題,此外還要感謝與電話公司的合作。

本文作者基于自己的采訪和各方消息的整理,論述了NSA在“大數(shù)據(jù)”存儲和分析上的實(shí)際操作方法,并就互聯(lián)網(wǎng)公司否認(rèn)的向NSA提供“直接訪問”一點(diǎn),提出新的質(zhì)疑,即類似DropBox的云端數(shù)據(jù)同步模式。

NSA面對的是怎樣大規(guī)模的數(shù)據(jù)?

2006年AT&T前雇員馬克?雷恩(Mark Klein)揭露了該公司幫助NSA在光纖骨干網(wǎng)當(dāng)中安裝竊聽裝置的信息,這種裝置被稱為是“情報流量分析器(Intelligence Traffic Analyzer)”。生產(chǎn)這種裝置的公司是Narus,2012年9月,我采訪了該產(chǎn)品的數(shù)字分析模塊負(fù)責(zé)人尼爾?哈林頓(Neil Harrington)。他在采訪中對我說,這種儀器能夠在每秒鐘內(nèi)對上千兆(gigabits)數(shù)據(jù)進(jìn)行分類和排序處理。“一般10G網(wǎng)速的以太網(wǎng)界面能夠始終保持每秒最高12G的速率,如果關(guān)閉標(biāo)簽匹配(tag pairs),還能再快些。”NSA在美國本土和全球其他國家的許多網(wǎng)絡(luò)環(huán)境當(dāng)中都使用這種監(jiān)聽設(shè)備,在如何處理這些海量數(shù)據(jù)的問題上,也遇到了一些問題。存儲、索引和分析的數(shù)據(jù)體量需要更先進(jìn)的技術(shù)。

思科的數(shù)據(jù)顯示,2012年全球互聯(lián)網(wǎng)每天的流量達(dá)到1.1EB,NSA想要捕獲并存儲這樣大規(guī)模的數(shù)據(jù)是不可能。況且還有SSL加密技術(shù),破解SSL加密連接需要花費(fèi)許多計(jì)算成本,無法應(yīng)用在全網(wǎng)流量上。所以就算NSA能夠竊聽網(wǎng)絡(luò)傳輸,大概也沒辦法做到實(shí)時監(jiān)控。

“社交網(wǎng)絡(luò)”的雛形 & 秘密社交圖譜

自從2001年的911事件之后,NSA就開始從電信公司那里用戶信息,其中包括電話撥叫紀(jì)錄、移動設(shè)備的地址信息等等。NSA從所有搜集的數(shù)據(jù)中進(jìn)行挖據(jù),這個數(shù)據(jù)庫被稱作MARINA。根據(jù)《衛(wèi)報》上周披露的文檔,NSA仍舊在搜集所有美國本土和海外撥叫電話號碼——只不過現(xiàn)在有了FISA(海外情報監(jiān)聽法案)的承認(rèn)。2006年,《今日美國》的文章稱MARINA是“全球最大的數(shù)據(jù)庫”。

具有諷刺意味的是,大概在同一時間段有兩個軟件程序被曝光,互聯(lián)網(wǎng)公司谷歌和雅虎當(dāng)時正在解決大數(shù)據(jù)存儲和分析的一些問題。2006年11月,谷歌發(fā)布了一份有關(guān)BigTable的論文,BigTable是一種能夠?qū)B規(guī)模級別的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行索引的技術(shù),支持Google Earth和其他應(yīng)用程序。雅虎則開發(fā)了比谷歌GFS文件系統(tǒng)(BigTable的理論基礎(chǔ))更先進(jìn)的技術(shù),成就了Hadoop的問世。2008年,NSA對BigTable進(jìn)行了調(diào)整,改名為Accumulo,目前該項(xiàng)目由Apache基金會負(fù)責(zé)。

Accumulo能夠基于數(shù)據(jù)的特殊模式產(chǎn)生實(shí)時報告。比如,系統(tǒng)能夠從某個IP地址段當(dāng)中尋找特定關(guān)鍵字或者電郵內(nèi)容中的地址,也可以尋找與某個目標(biāo)號碼相隔兩度的電話號碼。接著Accumulo可以把找到的電子郵件或電話號碼放到另外一個數(shù)據(jù)庫里面,供NSA特工進(jìn)一步調(diào)查。

換句話說,Accumullo讓NSA可以像谷歌處理用戶電郵和Web搜索一樣,只不過一切信息都是從互聯(lián)網(wǎng)的通訊流量、或者你撥叫的電話而來。Accumulo只是NSA的手段之一,過濾后的數(shù)據(jù)Accumulo可以傳輸給其他分析工具,比如Palantir。后者是可視化的數(shù)據(jù)分析工具,可生成關(guān)系圖譜——這一點(diǎn)和Facebook的Unicorn搜索和社交圖譜在概念上十分類似,谷歌的知識圖譜和微軟的Satori也是如此。

Accumulo已經(jīng)可以為分析工具提供大規(guī)模的數(shù)據(jù)了,但是這還沒完,NSA又引入了其他社交網(wǎng)絡(luò)的數(shù)據(jù)源,這就是PRISM。

PRISM,像DropBox一樣的云平臺后門?

前文提到,NSA面臨的問題之一是SSL加密連接,也就是Gmail、Facebook、Hotmail這些服務(wù)用來保護(hù)數(shù)據(jù)傳輸安全的技術(shù)。諷刺的是,PRISM讓SSL加密技術(shù)成為NSA搜集數(shù)據(jù)的積極因素。

基于斯諾登披露的文件和發(fā)布在《華盛頓郵報》和《衛(wèi)報》上的內(nèi)容,微軟實(shí)際上從2007年就在向NSA提供數(shù)據(jù)。PRISM幫助NSA在云計(jì)算平臺上直接獲取數(shù)據(jù)和用戶信息,可以繞過SSL加密認(rèn)證,直接調(diào)用云端存儲的數(shù)據(jù)。

PRISM等于是NSA和云服務(wù)平臺的在線通訊鏈接。盡管對于這一點(diǎn)還有些爭議,是否為“直接連接”仍舊存疑。但是《衛(wèi)報》和《紐約時報》的文章引述微軟線人的信息指出,PRISM更像是DropBox那樣的模式,好像是“安全在線空間(secure online rooms)”一樣。互聯(lián)網(wǎng)公司們可以用這種方式把數(shù)據(jù)提交給NSA,即與服務(wù)器信息進(jìn)行同步。內(nèi)容就是用戶信息、電郵內(nèi)容和分享的文檔等等。FBI就曾在以往的調(diào)查行動中發(fā)現(xiàn)了前CIA情報部長大衛(wèi)?皮特爾斯(David Patraeus)的婚外丑聞。

分享到

wangxueyang

相關(guān)推薦