網頁過濾(Web Filtering)已經不是一個新鮮名詞,由于互聯網的蓬勃發展,網上的信息資源開始到處泛濫,而其中不乏很多不良信息,于是人們開始探尋各種過濾信息的技術手段,以扼制不良信息的傳播,保護特定人群不受惡意信息的侵擾,例如保護企業內員工不受購物、娛樂等信息侵擾,而影響工作效率;保護青少年不受色情、暴力等信息毒害,而健康成長;因此網頁過濾技術應運而生,而由此衍生的內容安全市場也在飛速發展,國內外眾多網絡設備廠商開始涉足該領域。例如國外廠商有Websense、BlueCoat、8e6等,國內廠商有網康科技、新網程、任子行等。
目前,網頁過濾技術正向兩個主要方向發展:1.內容實時分析;2.Url過濾。
內容實時分析過濾是指在訪問Web內容時,對內容進行實時掃描,根據已知的敏感關鍵字/詞、圖片和頁面構成特點,分析是否含有禁止訪問的內容。這是最有效的控制方法,只要建立一個足夠完全的關鍵字庫就可以完全杜絕對不良信息的訪問。
但是,應用內容實時分析過濾技術卻受到網絡延遲、法律法規、文化道德、維護更新等多方面因素的限制。首先,該類產品對分析算法要求很高,并且要有相應運算能力的設備支持,否則在遇到大量數據分析時可能會造成嚴重的網絡延遲、誤判漏判等問題。其次,此類產品需要人工維護更新一個龐大的關鍵字數據庫,不斷將新的禁止訪問的內容關鍵字添加進去,但是對內容的分析需要跟文化、法律、宗教信仰等多方面結合起來評判,因為不同地區、不同文化、不同法律對信息良莠的定義都不相同,特別是在中國,一個詞可以用多音字、諧音字、拼音字母等多種方式表現,為關鍵字數據庫的維護帶來了巨大的難度。而這個維護更新工作一般是由用戶自己完成,因為不同的用戶對需要過濾的內容有不同的需求。還有,內容實時分析過濾需要將網頁內容下載到本地才能進行分析,對系統資源和帶寬資源都造成了一定的浪費。
因此,采用內容實時分析過濾技術的產品不應該是一個全球通用產品,必須做到真正的完全本地化,才能具備為本地用戶服務的能力。
Url過濾是近幾年才興起的一種網頁過濾方法,其原理非常簡單:通過對互聯網上各種各樣的信息進行分類,精確地匹配URL和與之對應的頁面內容,形成一個預分類網址庫。在用戶訪問網頁時,將要訪問的網址與預分類網址庫中的地址進行對比,以此來判斷該網址是否被允許訪問。例如我們事先設定禁止訪問色情類網站,當某個用戶想要訪問www.sex.com時,系統會對比該網址在預分類網址庫中屬于哪一類?是否被允許訪問?從而達到控制訪問的效果。
與內容實時分析過濾相比,Url過濾方法具有節約帶寬,降低訪問延遲,減少誤判率的優點。但是,Url過濾方法也存在一定的應用限制:首先,采用Url過濾方法的產品也不能是全球通用產品,這同樣牽扯到法律、文化、宗教等諸多問題,例如中西方對色情和成人的評定等級就不相同,這就要求預分類網址庫收集、分類必須符合當地法律法規、道德文化標準、用戶使用習慣等。其次,預分類網址庫必須實時更新,我們知道互聯網的發展日新月異,每天都會有大量的新網站誕生,這就對采用Url過濾技術的產品提出了實時更新數據庫的要求。還有,既然采用預分類的方式過濾Url,就對預分類網址庫的精確度提出了很高的要求,預分類的網址不但要數量龐大,還要具有非常高的分類精確度,才不至于出現誤判、漏判的可能。
北京網康科技有限公司擁有500萬網址的預分類網址庫,是業界領先的本地化預分類網址庫,數據庫的生成是根據中國地區上網用戶的URL訪問集中度、文化背景、對內容的敏感程度,以及參照國家立法規定,進行合理化采集、分類的結果。網康科技副總裁左英男說:“采用Url過濾技術的公司必須成立專門的Url收集分析部門,及時對新近誕生和死亡的網址進行跟蹤、分析和分類,并及時為用戶更新預分類網址庫,這樣才能保證網頁過濾的有效性”。北京網康科技有限公司是中國領先的互聯網控制管理設備及服務提供商。
網康科技Url過濾部門負責人楊東曉說:“網康科技擁有自主研發的內容分類搜索引擎,它會實時在互聯網上進行區域性的URL抓取,并經網康智能分類分析系統對抓取結果進行有效性校驗和內容分類匹配,再通過我們部門的URL數據分類審核小組成員對分類結果進行人工審核,以保證分類的準確性,最后將審核結果導入數據庫,并上傳至服務器供所有用戶實時更新。”
由于網頁過濾與法律、文化、宗教有著很高的相關性,過濾技術的發展已經不能完全滿足用戶的需求。而智能系統對內容的分析判斷總是會有些偏差,無論是實時的內容掃描分析,還是預分類的Url過濾方法,都無法做到100%的準確判斷。但是完善的本地化服務卻能彌補先天的不足,只有把用戶的需求和利益放在第一位,為本地用戶提供真正適合的產品和服務,才能在市場上立足根本。


