国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

掃一掃
關注微信公眾號

什么是流式大數據,處理技術、平臺及應用都
2018-11-05   多智時代

大數據技術的廣泛應用使其成為引領眾多行業(yè)技術進步、促進效益增長的關鍵支撐技術。根據數據處理的時效性,大數據處理系統(tǒng)可分為批式(batch)大數據和流式(streaming)大數據兩類。其中,批式大數據又被稱為歷史大數據,流式大數據又被稱為實時大數據。

1

舉個例子來說:我們把數據當成水庫的話,水庫里面存在的水就是批式大數據,進來的水是流式大數據

目前主流的大數據處理技術體系主要包括hadoop[1]及其衍生系統(tǒng)。Hadoop技術體系實現并優(yōu)化了MapReduce[2]框架。Hadoop技術體系主要由谷歌、推特、臉書等公司支持。自2006年首次發(fā)布以來, Hadoop技術體系已經從傳統(tǒng)的“三駕馬車”(HDFS[1]、MapReduce和HBase[3])發(fā)展成為包括60多個相關組件的龐大生態(tài)系統(tǒng)。在這一生態(tài)系統(tǒng)中,發(fā)展出了Tez、Spark Streaming[4]等用于處理流式數據的組件。其中,Spark Streaming是構建在Spark基礎之上的流式大數據處理框架。與Tez相比,其具有吞吐量高、容錯能力強等特點,同時支持多種數據輸入源和輸出格式。除了Spark開源流處理框架,目前應用較為廣泛的流式大數據處理系統(tǒng)還有Storm[5]、Flink[6]等。這些開源的流處理框架已經被應用于部分時效性要求較高的領域,然而在面對各行各業(yè)實際而又差異化的需求時,這些開源技術存在著各自的瓶頸。

在互聯網/移動互聯網、物聯網等應用場景中,個性化服務、用戶體驗提升、智能分析、事中決策等復雜的業(yè)務需求對大數據處理技術提出了更高的要求。為了滿足這些需求,大數據處理系統(tǒng)必須在毫秒級甚至微秒級的時間內返回處理結果。以國內最大的銀行卡收單機構銀聯商務為例,其日交易量近億筆,需對旗下540多萬個商戶進行實時風險監(jiān)控,在確保這些商戶合規(guī)開展收單業(yè)務的同時,最大限度地保障個人用戶的合法權益。這樣的高并發(fā)、大數據、高實時應用需求給大數據處理系統(tǒng)提出了嚴峻的挑戰(zhàn)。銀聯商務以前使用的T+1事后風控系統(tǒng)存在風險偵測遲滯高(次日才能發(fā)現風險,損害已經造成)、處理時間長(十幾個小時之后才能完成風險識別)、無法處理長周期歷史數據(只能分析最近幾日的流水數據)以及無法支持復雜規(guī)則(僅能支持累積求和等簡單規(guī)則)等重大缺陷。為此,亟須研發(fā)全新的事中風控系統(tǒng),以重點實現低遲滯(在1 min內甄別突發(fā)風險)、高實時(100 ms內返回處理結果)、長周期(可處理長達10年以上的歷史周期數據)以及支持高復雜度規(guī)則(如方差、標準差、K階中心矩、最大連續(xù)統(tǒng)計等)等目標。這一目標可以抽象為一個大數據處理科學問題:如何在一個完整的大數據集上,實現低遲滯、高實時的即席(Ad-Hoc)查詢分析處理。

2 技術解析

現有的大數據處理系統(tǒng)可以分為兩類:批處理大數據系統(tǒng)與流處理大數據系統(tǒng)。以Hadoop為代表的批處理大數據系統(tǒng)需先將數據匯聚成批,經批量預處理后加載至分析型數據倉庫中,以進行高性能實時查詢。這類系統(tǒng)雖然可對完整大數據集實現高效的即席查詢,但無法查詢到最新的實時數據,存在數據遲滯高等問題。相較于批處理大數據系統(tǒng),以Spark Streaming、Storm、Flink為代表的流處理大數據系統(tǒng)將實時數據通過流處理,逐條加載至高性能內存數據庫中進行查詢。此類系統(tǒng)可以對最新實時數據實現高效預設分析處理模型的查詢,數據遲滯低。然而受限于內存容量,系統(tǒng)需丟棄原始歷史數據,無法在完整大數據集上支持Ad-Hoc查詢分析處理。因此,研發(fā)具有快速、高效、智能且自主可控特點的流式大數據實時處理技術與平臺是當務之急。

實現一個融合批處理和流處理兩類系統(tǒng)且對應用透明的系統(tǒng)級方案,需要攻克以下幾個技術難點。

(1)復雜指標的增量計算

盡管計數、求和、平均等指標能夠依靠查詢結果合并實現,然而方差、標準差、熵等大部分復雜指標無法依靠簡單合并完成查詢結果的融合。再者,當查詢涉及熱點數據維度及長周期時間窗口的復雜指標時,多次重新計算會帶來巨大的計算開銷。

(2)基于分布式內存的并行計算

采用粗放的調度策略(例如約定在每天的固定時間將流數據導入批處理系統(tǒng))會造成內存資源的極大浪費,亟須研究實現一種細粒度的基于進度實時感知的融合存儲策略,以極大地優(yōu)化和提升融合系統(tǒng)的內存使用效率。

(3)多尺度時間窗口漂移的動態(tài)數據處理

來自業(yè)務系統(tǒng)的數據查詢請求會涉及多種尺度的時間窗口,如“最近5筆刷卡交易的金額”“最近10 min內密碼重試次數”“過去10年的月均交易額”等。每次查詢請求都重新計算結果會對系統(tǒng)性能造成極大的影響,亟須研究實現一種支持多種時間窗口尺度(數秒到數十年)、多種窗口漂移方式(數據驅動、系統(tǒng)時鐘驅動)的動態(tài)數據實時處理方法,以快速響應來自業(yè)務系統(tǒng)的即席查詢請求。

(4)高可用、高可擴展的內存計算

基于內存介質能夠大大提升數據分析及處理能力,然而由于其易揮發(fā)的特性,一般需要采用多副本的方式來實現基于內存的高可用方案,這使得“如何確保不同副本的一致性”成為一個待解決的問題。此外,在集群內存不足或者部分節(jié)點失效時,“如何讓集群在不間斷提供服務的同時重新平衡”同樣是一個待解決的技術難題。亟須研究分布式多副本一致性協議以及自平衡的智能分區(qū)算法,以進一步提升流處理集群的可用性以及可擴展性。

“流立方”流式大數據實時處理技術在上述領域取得了一系列突破,該技術提供基于時間窗口漂移的動態(tài)數據快速處理,支持計數、求和、平均、最大、最小、方差、標準差、K階中心矩、遞增/遞減、最大連續(xù)遞增/遞減、唯一性判別、采集、過濾等多種分布式統(tǒng)計計算模型,并且實現了復雜事件、上下文處理等實時分析處理模型集的高效管理技術。

3 平臺縱覽

基于“流立方”流式大數據實時處理技術,研發(fā)了“流立方”流式大數據實時處理平臺。其應用框架如圖1所示,具有良好的靈活性和適應性。平臺的數據裝載模塊負責從具體業(yè)務系統(tǒng)中接入實時流數據,數據抽取模塊負責批量抽取歷史數據,模型裝載模塊負責將分析處理模型集中的計算模型和腳本加載到平臺中。當收到業(yè)務系統(tǒng)發(fā)出的實時查詢請求時,“流立方”平臺能夠根據分析處理模型在完整大數據集上實時計算出相應的指標,并進行判斷,將結果反饋給業(yè)務系統(tǒng)。

2

圖1 “流立方”平臺應用框架

在測試環(huán)境為8臺服務器(每臺服務器配置24核 CPU、256 GB內存),同時計算16個統(tǒng)計指標(涉及4個維度,包含計數、求和、平衡、最大、最小、標準差、過濾、去重、排序、復雜事件處理等多種算法)的性能測試中,“流立方”平臺達到了單節(jié)點寫入大于43 000 TPS、8節(jié)點讀取大于100萬TPS、平均時延為1~2 ms的優(yōu)異性能,如圖2所示。

3

圖2 “流立方”平臺性能指標

“流立方”平臺在解決批式大數據和流式大數據融合實時處理技術難題,實現優(yōu)異性能的同時,還解決了流式大數據處理平臺面臨的兩大工程化難題。一是作業(yè)的編排效率問題。大部分開源流處理平臺在完成一個流處理編排時,都需要經過拓撲設計、代碼編寫、功能測試、打包部署等環(huán)節(jié),一般需要一周的時間才能完成。“流立方”平臺通過基于“所見即所得”的在線作業(yè)編排管理,將上線任務耗時降低到分鐘級,大大提升了流處理作業(yè)的編排效率。二是流處理作業(yè)的靈活變更問題。流處理平臺擅長進行邏輯預先定義的增量計算,盡管其計算效率極高,但計算靈活度受到限制。例如,某業(yè)務需要統(tǒng)計過去3個月的數據,現有的流處理平臺在該業(yè)務上線3個月后才能完全生效,這樣的工作方式使流處理技術在實際應用中受到很大的局限。“流立方”平臺創(chuàng)新性地引入流媒體播放器的錄制與重放思路,在原始數據進入流處理平臺時,通過順序寫的方式持久化一份原始數據,在需要上線新的計算作業(yè)時,即刻重發(fā)指定時間窗口內的原始數據,從而實現快速(分鐘級甚至秒級)計算作業(yè)上線。

“流立方”平臺引入了一系列創(chuàng)新技術,在性能、可用性、可擴展性等多個層面提升了流處理平臺的處理能力,滿足金融領域在內的眾多領域的業(yè)務及運維需求。引入數據沖突智能規(guī)避技術,解決了流式處理中的熱點數據處理問題,從而解決了大顆粒數據維度的處理效率問題;引入Paxos一致性協議,解決內存存儲計算時多副本一致性問題,提供了面向運維人員透明的一致性解決方案;引入智能分區(qū)技術,基于一致性散列技術,進一步將散列值拆解為散列塊,通過散列塊的平滑遷移解決存儲集群的可伸縮性設計問題,確保對于運維人員的集群變更透明性;引入計算作業(yè)的動態(tài)運行時加載技術,規(guī)避了作業(yè)手工打包部署的問題,進一步提升了開發(fā)人員的工作效率。

在國內某大型銀行卡收單機構組織的招標測試中,測試環(huán)節(jié)為兩臺低配置虛擬機,測試數據為該機構的數千萬筆交易流水,計算邏輯包括50多條規(guī)則,涉及30多個統(tǒng)計指標。在該測試環(huán)節(jié)下,兩家國外著名廠商中,一家廠商的計算時間長達24 h,另一家老牌數據庫軟件提供商則未能在一天內完成計算。相較于這些國外著名廠商的大數據處理平臺,“流立方”平臺能夠在3 h內完成所有計算,且正確率為100%。

4 應用場景

“流立方”流式大數據實時處理系統(tǒng)在金融、交通、電信、公安等行業(yè)具有廣泛的應用場景。以金融風控反欺詐為例,部署“流立方”風控系統(tǒng)僅需在交易前端增加風控探頭,將實時交易數據旁路接入系統(tǒng)。“流立方”風控系統(tǒng)根據融合了專家知識和機器學習結果的數百條規(guī)則對每筆交易進行風險評估,判斷是否允許進行該筆交易,流程如圖3所示。該系統(tǒng)平均響應時間在6 ms以下,并發(fā)數超過50 000筆/s。同時,實現這一性能僅需要4臺服務器。

4

圖3 基于“流立方”的金融風控反欺詐流程

基于“流立方”的金融風控反欺詐技術體系包含技術(如設備指紋、代理偵測、生物識別、關聯分析、機器學習等技術)、知識(如盜卡反欺詐、偽卡反欺詐、信用卡套現、營銷反欺詐等規(guī)則與模型)、數據(如虛假手機數據、代理IP數據、P2P失信數據等標識數據)三大板塊。技術部分中的設備指紋技術通過主被動混合的形式采集設備中軟硬相關要素,結合概率論等算法為每一個設備頒發(fā)一個全球唯一的指紋編碼,這些指紋編碼在反欺詐的整個過程中起到非常積極的作用;代理偵測技術通過短時間內掃描IP相關端口來識別那些開啟代理的IP,并在這些IP訪問金融服務時進行識別;生物識別技術通過采集設備上用戶的鼠標點擊、觸摸、鍵盤敲擊等行為識別操作者是人還是機器以及是否操作者本人的問題;關聯分析技術在底層通過圖數據庫存儲不同節(jié)點以及關系信息,最終在界面上通過圖的形式進行欺詐者關聯分析及復雜網絡分析;機器學習技術通過有監(jiān)督、無監(jiān)督的機器學習算法提升欺詐識別的準確率及覆蓋率,并結合流立方技術提供模型的事中預測能力。

基于上述技術體系,研發(fā)了銀行業(yè)務風險實時監(jiān)控系統(tǒng)、互聯網支付業(yè)務風險實時監(jiān)控系統(tǒng)、電商業(yè)務風險實時監(jiān)控系統(tǒng)等金融風控反欺詐系列解決方案。這些方案已應用到銀行、第三方支付機構、互聯網金融等領域的上百家企業(yè)。目前50%以上的線下交易都在“流立方”的保護下進行,基于“流立方”的金融風控反欺詐解決方案每天為我國的金融機構抵御上億次的攻擊。該技術已經成為我國金融安全領域基礎設施必不可少的組成部分。

此外,在互聯網機器防御系統(tǒng)中,“流立方”同樣能發(fā)揮巨大作用。如今網絡機器人遍布票務、電商、招聘、銀行、政府、社交等各類網站,消耗了40%~60%的網絡流量。網絡機器人不僅消耗網絡資源、影響正??蛻粼L問、增加網站運營成本,還會爬取產品、價格信息,形成不正當競爭,甚至混淆網站用戶生態(tài),影響營銷分析。傳統(tǒng)的控制策略通過采取屏蔽頻繁訪問、設置驗證碼等方式防御網絡機器人,無法應對日益智能化的新型網絡機器人?;?ldquo;流立方”的互聯網機器防御系統(tǒng)通過在Web服務器上嵌入插件或者獨立的嗅探器(sniffer)程序,將全流量的Web訪問請求旁路到獨立的機器防御集群,進行實時的流量分析及防御決策,并將決策后的結果實時回饋到Web服務器插件中。Web服務器插件在判定當前訪問的設備或者IP地址等是機器人時,能夠自動改寫響應內容,根據不同的風險級別自動拒絕交易或將訪問者引導到第三方圖形驗證碼服務商進行機器人驗證。訪問者在通過驗證后可以繼續(xù)正常訪問Web服務。該系統(tǒng)還創(chuàng)新地將設備指紋以及人機識別服務運用到機器防御系統(tǒng)中,不僅增加了可分析維度,提升了控制顆粒度,同時能夠對基于瀏覽器內核的高級爬蟲進行防護。此外,將機器防御規(guī)則、數據服務、設備指紋、人機識別以及圖形驗證碼以軟件即服務(software as a service,SaaS)的形式提供服務,進一步降低了互聯網網站客戶的運維門檻,提升了產品競爭力。該機器防御系統(tǒng)工作過程如圖4所示。

基于“流立方”的實時機器防御系統(tǒng)通過多服務器訪問流水關聯決策、長周期數據決策、復雜規(guī)則爬蟲識別、設備維度爬蟲識別、人機識別等技術,實現了微秒級(400~800μs)的識別時延,同時具有機器人識別管控一體化、輕量級接入等優(yōu)點。根據已經接入機器防御服務的幾十家客戶的反饋,基于“流立方”平臺的防御系統(tǒng)對機器人識別覆蓋率在95%以上,準確率為99.9%。該機器防御系統(tǒng)能夠攔截這些客戶業(yè)務系統(tǒng)中占原有訪問總流量80%~90%的來自網絡機器人的訪問流量,使得其業(yè)務系統(tǒng)服務器的壓力降為原來的10%。由于基于“流立方”的機器防御系統(tǒng)的卓越識別及控制機器人的能力,當前,全國最大的票務平臺正在對此服務進行全面的測試,希望能夠進一步提升其票務服務能力。

此外,基于“流立方”的流式大數據實時處理平臺在智慧交通領域也大有作為。通過實時分析從預埋在全國各地的攝像頭采集的車牌信息,配合地理位置信息服務以及基于地理信息系統(tǒng)(geographic information system,GIS)的最短交通距離計算,實現實時套牌車信息抓取,為進一步打擊違法犯罪服務提供幫助;通過實時分析交叉路口雙向的車流量信息,實時控制每個路口的紅綠燈、智能變換潮汐車道及可變車道,從而大大提升城市的通行效率。

“熱數據”帶來無與倫比的價值,數據從產生開始,其應用價值隨時間的流逝呈現指數式下降,如何充分應用“熱數據”是一個新生事務,是一個長期任務,也是流式大數據處理技術大有可為之處。“流立方”流式大數據實時處理技術和平臺在金融、電信、交通、公安、海關、網絡安全等需要引入“事中”感知分析決策模式的行業(yè)都具有廣闊的應用前景。

基于批式大數據,可以不斷學習新的知識,累積新的經驗。然而,在應用這些知識和經驗時,流式大數據更能夠極大限度地挖掘“熱數據”的潛在價值。這使得流式大數據技術具備更有效的應用推廣價值。

流式大數據實時處理是大數據時代信息化的重要抓手。采用“事中”甚至“事前”模式實現感知、分析、判斷、決策等功能的智能系統(tǒng)需要流式大數據實時處理平臺的支撐。此外,流式大數據實時處理可以為大數據驅動的深度學習提供計算框架支撐。“流立方”流式大數據實時處理平臺可為研制融合邏輯推理、概率統(tǒng)計、眾包、神經網絡等多種形態(tài)的下一代人工智能統(tǒng)一計算框架提供支持。

熱詞搜索:流式大數據

上一篇:網管軟件之視頻管理的特點
下一篇:監(jiān)控系統(tǒng)在機房維護中有何應用?機房三大監(jiān)控系統(tǒng)介紹

分享到: 收藏
国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区
亚洲综合成人网| 欧美电影在哪看比较好| 韩国中文字幕2020精品| 粉嫩一区二区三区在线看 | 99久久国产综合精品色伊| 精品国产乱码久久久久久夜甘婷婷| 自拍偷拍国产亚洲| 国产精品1区2区| 久久综合久久鬼色| 韩国欧美国产一区| 欧美成人性战久久| 蜜桃视频第一区免费观看| 欧美特级限制片免费在线观看| 亚洲美女屁股眼交| 91久久精品网| 一区二区三区欧美久久| 色欧美日韩亚洲| 亚洲人成网站色在线观看| bt欧美亚洲午夜电影天堂| 综合电影一区二区三区| 不卡一区在线观看| 亚洲日本在线a| 色天使色偷偷av一区二区| 一区二区三区中文免费| 在线欧美日韩精品| 日本在线观看不卡视频| 精品国产成人系列| 岛国av在线一区| 日韩理论片在线| 欧美麻豆精品久久久久久| 石原莉奈在线亚洲三区| 日韩欧美高清一区| 国产91精品精华液一区二区三区| 日本一区二区电影| 欧美亚洲动漫另类| 美腿丝袜在线亚洲一区| 中文字幕精品三区| 欧美精品久久一区二区三区| 狠狠狠色丁香婷婷综合久久五月| 国产欧美日韩中文久久| 91小视频在线免费看| 亚洲v日本v欧美v久久精品| 精品三级在线看| 成人高清伦理免费影院在线观看| 亚洲国产精品久久人人爱| 日韩美女视频一区二区在线观看| 成人精品免费看| 天天色综合成人网| 国产精品婷婷午夜在线观看| 欧美人妖巨大在线| 99久久精品情趣| 美女一区二区久久| 亚洲男人的天堂在线观看| 欧美一级精品大片| 欧美综合欧美视频| 国产风韵犹存在线视精品| 天堂午夜影视日韩欧美一区二区| 国产精品免费视频一区| 91麻豆精品国产91久久久久久| 成人黄色电影在线| 国产精品一区二区久久不卡| 亚洲国产成人va在线观看天堂| 久久久久国产精品人| 欧美老肥妇做.爰bbww| 91丨porny丨最新| 国产精品 欧美精品| 首页国产欧美久久| 亚洲一区二区三区四区在线观看 | 亚洲欧美日韩在线| 久久久久亚洲蜜桃| 日韩一区二区三区免费观看| 在线观看免费亚洲| 97久久久精品综合88久久| 国产精品一区二区久久精品爱涩 | 99精品欧美一区| 国产精品资源在线| 久久97超碰国产精品超碰| 亚洲国产视频一区二区| 亚洲欧洲日韩在线| 国产精品美女www爽爽爽| 欧美精品一区二区三区蜜桃视频| 欧美一区二区三区四区视频| 欧美日韩一区 二区 三区 久久精品| 99久久99久久久精品齐齐| 国产99久久久精品| 国产精品一区二区在线观看网站| 卡一卡二国产精品 | 在线观看日韩国产| 欧美在线三级电影| 欧美亚洲禁片免费| 欧美欧美午夜aⅴ在线观看| 欧美色倩网站大全免费| 欧美日韩另类一区| 欧美一区二区三区四区五区| 91精品国产91久久久久久一区二区 | 在线精品视频免费播放| 欧美亚洲一区二区在线观看| 91久久精品一区二区三区| 在线观看日韩高清av| 精品视频资源站| 日韩欧美国产午夜精品| 久久精品一区二区三区不卡| 欧美经典三级视频一区二区三区| 亚洲国产高清在线观看视频| 中文字幕一区二区5566日韩| 亚洲综合视频在线| 蜜桃视频一区二区三区在线观看| 国产一区999| 日本乱码高清不卡字幕| 欧美精品123区| 国产视频911| 一区二区三区不卡视频 | 欧美日韩国产一区| 精品福利一区二区三区| 国产精品亲子乱子伦xxxx裸| 夜夜嗨av一区二区三区四季av| 青青草国产成人99久久| 成人亚洲一区二区一| 欧美色视频在线观看| 久久久久久久久久久久久女国产乱| 国产精品久久久久三级| 亚洲777理论| 国产不卡在线视频| 欧美伦理电影网| 国产精品另类一区| 日韩黄色免费电影| av一区二区不卡| 日韩欧美的一区| 亚洲精品国产一区二区精华液| 日本不卡的三区四区五区| 成人av免费在线| 日韩女优av电影在线观看| 中文字幕一区二区三区精华液 | 亚洲福利视频一区二区| 韩国av一区二区| 欧美日韩精品一区二区三区蜜桃| 久久久久九九视频| 日韩在线a电影| 色婷婷久久久亚洲一区二区三区| 26uuu色噜噜精品一区| 亚洲123区在线观看| 99久久婷婷国产综合精品电影| 欧美v日韩v国产v| 香蕉成人啪国产精品视频综合网| 成人开心网精品视频| 久久综合色鬼综合色| 亚洲www啪成人一区二区麻豆| 成人av影视在线观看| 久久免费视频色| 极品美女销魂一区二区三区免费 | 亚洲成人免费视| 欧美性大战久久久久久久| 亚洲色图欧美激情| 成人avav影音| 国产精品乱码久久久久久| 久久99精品久久久久久久久久久久| 欧美色网一区二区| 一区二区三区日韩欧美精品| 97国产精品videossex| 日本一区二区电影| 国产精品1区2区3区| 欧美—级在线免费片| 国产成人在线免费| 亚洲国产精品国自产拍av| 国产成a人亚洲| 国产精品乱人伦| 91一区二区在线| 一区二区三区四区在线| 国产一区二区三区精品视频| 欧美丰满嫩嫩电影| 婷婷成人激情在线网| 538prom精品视频线放| 蜜臀av性久久久久蜜臀av麻豆 | 天堂蜜桃91精品| 欧美成人国产一区二区| 久久99精品国产| 国产色产综合色产在线视频| 丁香五精品蜜臀久久久久99网站| 最新高清无码专区| 色狠狠综合天天综合综合| 亚洲老司机在线| 7777精品久久久大香线蕉| 免费成人深夜小野草| 久久看人人爽人人| 99精品视频在线观看| 亚洲一区二区三区四区在线免费观看| 欧美三级韩国三级日本三斤| 青青草伊人久久| 国产精品色哟哟| 欧美日韩视频不卡| 精品制服美女久久| 国产精品高清亚洲| 欧美伦理影视网| 国产成人免费高清| 亚洲国产视频a| 国产欧美日韩在线视频| 欧美日韩亚洲综合在线 | 日韩国产在线观看一区| www国产成人| 欧美日韩一区二区三区高清|