
Hadoop是當(dāng)前最流行的大數(shù)據(jù)技術(shù)架構(gòu),包括Hadoop分布式文件系統(tǒng)(HDFS)、數(shù)據(jù)分析框架Map-Reduce、數(shù)據(jù)挖掘工具M(jìn)ahout等,目前很多大數(shù)據(jù)處理都是基于Hadoop平臺之上。
數(shù)據(jù)流處理的特殊性以及大數(shù)據(jù)處理的時效性等各種限制使得傳統(tǒng)的實時處理技術(shù)已不能夠滿足需求,因此,大數(shù)據(jù)的流式處理成為了天文學(xué)學(xué)者的研究熱點。當(dāng)前,流式數(shù)據(jù)處理的計算框架主要有Storm,SparkStreaming等,并且在互聯(lián)網(wǎng)行業(yè)得到了一定的應(yīng)用,但在天文學(xué)研究中尚鮮有應(yīng)用。
國內(nèi)外在天體系統(tǒng)運行狀態(tài)監(jiān)測大數(shù)據(jù)技術(shù)研究和應(yīng)用方面已有成效,但仍處于起步探索階段。天體系統(tǒng)的運行狀態(tài)數(shù)據(jù)具有持續(xù)不斷、數(shù)據(jù)量大、規(guī)模及順序無法預(yù)知及時效性高等特點,形成了大規(guī)模的數(shù)據(jù)流。而數(shù)據(jù)流的價值會隨著時間的流逝而減少,如何快速地從數(shù)據(jù)流中發(fā)現(xiàn)異常數(shù)據(jù),為天體系統(tǒng)的運行與安全狀態(tài)監(jiān)測提供重要依據(jù)具有重要意義,因此可以將大數(shù)據(jù)技術(shù)引入到天體系統(tǒng)運行異常狀態(tài)檢測中。目前在天體系統(tǒng)運行異常狀態(tài)檢測中應(yīng)用的大數(shù)據(jù)技術(shù)有時間序列分析、馬爾可夫模型、遺傳規(guī)劃算法、分類算法等,但這些研究尚處于探索階段,尚未形成完善、成熟的理論體系。