當(dāng)前,內(nèi)容過濾正在成為越來越熱門的話題。據(jù)IDC的分析統(tǒng)計(jì)預(yù)測,作為安全領(lǐng)域的一個(gè)重要分支,今年,內(nèi)容安全市場的市值將達(dá)到65億美元。內(nèi)容過濾仿佛成了萬能良藥,能夠解決互聯(lián)網(wǎng)帶來的一切的內(nèi)容相關(guān)問題。市場上的防火墻、路由器、交換機(jī)、郵件網(wǎng)關(guān)、代理服務(wù)器等網(wǎng)絡(luò)產(chǎn)品幾乎都已經(jīng)加入了內(nèi)容過濾的功能。每個(gè)廠商都提供不同的產(chǎn)品,而且有著迥然不同的技術(shù)觀點(diǎn)和宣傳方式。另外,電信運(yùn)營商也在進(jìn)行著內(nèi)容過濾,這是和每一個(gè)網(wǎng)民都息息相關(guān)的。那么,我們不僅要問,到底什么才是內(nèi)容過濾,如何才能夠有效的進(jìn)行內(nèi)容過濾,內(nèi)容安全的明天又是什么樣子呢?本文從技術(shù)的角度對內(nèi)容過濾進(jìn)行分析,以饗讀者。
企業(yè)網(wǎng)絡(luò)內(nèi)容過濾
在每一個(gè)互聯(lián)網(wǎng)訪問的網(wǎng)絡(luò)邊緣(企業(yè)/學(xué)校網(wǎng)絡(luò)邊緣、網(wǎng)吧網(wǎng)絡(luò)出口),都可以部署內(nèi)容過濾工具。這些工具一般是分析網(wǎng)絡(luò)數(shù)據(jù)流中包含的HTTP數(shù)據(jù)包,對數(shù)據(jù)包頭中的IP地址、URL、文件名、HTTP methods進(jìn)行訪問控制。
在網(wǎng)絡(luò)邊緣的內(nèi)容過濾產(chǎn)品有兩種表現(xiàn)方式,旁路式(Passby)和穿透式(Passthrough)。旁路式內(nèi)容過濾產(chǎn)品是獨(dú)立的,它監(jiān)聽網(wǎng)絡(luò)上所有信息,并有選擇的對基于TCP的連接進(jìn)行阻斷。穿透式內(nèi)容過濾產(chǎn)品依賴于其他網(wǎng)絡(luò)邊緣處的基礎(chǔ)平臺(tái)。穿透式內(nèi)容過濾產(chǎn)品根據(jù)網(wǎng)絡(luò)邊緣接入基礎(chǔ)平臺(tái)的訪問請求,作出允許或禁止的判斷,然后由這些平臺(tái)執(zhí)行過濾的動(dòng)作。
![]() |
那么,內(nèi)容過濾產(chǎn)品如何作出允許或禁止的判斷呢?不同的廠商有著不同的解決方案。從理論上來講,最理想的產(chǎn)品能夠?qū)崟r(shí)對網(wǎng)頁內(nèi)容進(jìn)行分析,然后判斷是否允許用戶訪問。例如,用戶訪問一個(gè)色情網(wǎng)站,內(nèi)容過濾產(chǎn)品分析這個(gè)網(wǎng)站中頁面的內(nèi)容,發(fā)現(xiàn)其中包含了大量的色情詞匯和圖片信息,從而判斷這是一個(gè)不良網(wǎng)站需要進(jìn)行過濾。這是一個(gè)理想的狀態(tài)。但是,在具體的生產(chǎn)應(yīng)用環(huán)境當(dāng)中,實(shí)時(shí)分析網(wǎng)頁內(nèi)容并進(jìn)行過濾是不現(xiàn)實(shí)的,這個(gè)問題主要體現(xiàn)在對網(wǎng)頁內(nèi)容實(shí)時(shí)分析給用戶瀏覽體驗(yàn)帶來的延時(shí)是不可以接受的。對文字內(nèi)容進(jìn)行比較分析需要大量的計(jì)算資源,更不用說圖片信息。試想一下每一個(gè)用戶每點(diǎn)擊一個(gè)鏈接都要等待數(shù)十秒鐘,這還是比較好的情況。一般的企業(yè)網(wǎng)絡(luò)內(nèi)每秒鐘都會(huì)有數(shù)個(gè)到數(shù)十個(gè)HTTP連接建立,這對實(shí)時(shí)的內(nèi)容分析來說是不可完成的任務(wù)。
所以,絕大部分的廠商采取了一個(gè)折中的辦法,他們事先對訪問量較大、名氣較大的網(wǎng)站和網(wǎng)頁的內(nèi)容做分類的工作,然后把URL、IP地址和內(nèi)容分類對應(yīng)起來。當(dāng)用戶訪問這些網(wǎng)站上的頁面時(shí),內(nèi)容過濾產(chǎn)品就可以根據(jù)事先的分類進(jìn)行過濾,達(dá)到按內(nèi)容過濾的目的。
互聯(lián)網(wǎng)骨干網(wǎng)絡(luò)過濾
內(nèi)容過濾除了在個(gè)人電腦和企業(yè)網(wǎng)絡(luò)中的應(yīng)用,在互聯(lián)網(wǎng)骨干上也可以實(shí)現(xiàn)相同的功能。互聯(lián)網(wǎng)骨干的主要任務(wù)是在保證可連通性的同時(shí),盡可能快速的提供數(shù)據(jù)交換通道,這就要求網(wǎng)絡(luò)結(jié)構(gòu)和配置盡可能簡單。屬于網(wǎng)絡(luò)高層應(yīng)用的內(nèi)容過濾本來不應(yīng)該在互聯(lián)網(wǎng)骨干上部署實(shí)施。但是,出于國家安全的需要,對一些網(wǎng)站還是需要進(jìn)行屏蔽。電信運(yùn)營商在互聯(lián)網(wǎng)骨干上使用的內(nèi)容過濾技術(shù)主要是DNS過濾和IP地址過濾:互聯(lián)網(wǎng)骨干DNS服務(wù)器拒絕解析指定URL列表;通過ACL拒絕到指定IP地址的連接。這些手段輕微的影響互聯(lián)網(wǎng)性能,但是技術(shù)和現(xiàn)實(shí)中也是可以實(shí)現(xiàn)和接受的。
另外,現(xiàn)在中國有些地區(qū)的寬帶運(yùn)營商還提供“綠色上網(wǎng)”服務(wù),為申請此項(xiàng)服務(wù)的用戶提供內(nèi)容過濾的功能,以保護(hù)青少年和兒童。這些“綠色上網(wǎng)”服務(wù)的原理同以上的內(nèi)容過濾原理是一樣的,不同之處在于每個(gè)用戶的可定制化功能。還有些運(yùn)營商采取了“投訴”的方式來維護(hù)更新不良內(nèi)容網(wǎng)址,通過獎(jiǎng)勵(lì)上網(wǎng)費(fèi)用和時(shí)間的方式來鼓勵(lì)寬帶用戶投訴不良網(wǎng)站。這也是一個(gè)很好的思路和現(xiàn)實(shí)的做法。
技術(shù)難點(diǎn)和技術(shù)趨勢
從以上過濾手段來看,它們都受制于內(nèi)容分類的效率和準(zhǔn)確性。如何提高內(nèi)容分類的效率和準(zhǔn)確性,是各個(gè)廠商鉆研的難題。
實(shí)際上,每個(gè)月都有新注冊的超過100萬個(gè)網(wǎng)站出現(xiàn)在互聯(lián)網(wǎng)上,也就是說互聯(lián)網(wǎng)是變化的,這種變化是永不停息的。我們不可能把所有的網(wǎng)站和網(wǎng)頁都進(jìn)行歸類并放在數(shù)據(jù)庫當(dāng)中,這樣的話,這個(gè)數(shù)據(jù)庫的規(guī)模將會(huì)遠(yuǎn)遠(yuǎn)超過實(shí)際應(yīng)用中硬件平臺(tái)性能所能承受的最大限制。最好的辦法還是挑選一部分網(wǎng)站放在數(shù)據(jù)庫當(dāng)中,這些網(wǎng)站至少具有兩個(gè)特征:訪問量比較大;包含不良內(nèi)容。對于那些訪問量不大,或者內(nèi)容“不咸不淡”的網(wǎng)站,大可以忽略不計(jì)。
在變化之外,每個(gè)企業(yè)或者每個(gè)人的瀏覽習(xí)慣都是不一樣的,也可能有些人特別喜歡瀏覽一些冷門的網(wǎng)站,這就涉及一個(gè)個(gè)性化的問題。為了對這些訪問進(jìn)行控制和過濾,內(nèi)容過濾產(chǎn)品本身還要具有一定的智能,能夠自動(dòng)分析歸類這些網(wǎng)站的內(nèi)容,并對用戶的訪問進(jìn)行過濾。這樣的分析結(jié)果應(yīng)該保留在訪問者的本地內(nèi)容過濾設(shè)備上,而不是上傳同步到所有的用戶。這樣的話,所有用戶就有一個(gè)集中的公共數(shù)據(jù)庫,包含了絕大部分熱門網(wǎng)站;每個(gè)用戶還有一個(gè)分散的私人數(shù)據(jù)庫,包含了自己的瀏覽分析歸類數(shù)據(jù)。



