數(shù)據(jù)分析技術與商業(yè)智能的發(fā)展使得CIO們能以較低成本、快速而深入地處理商業(yè)數(shù)據(jù)。
近期,趨勢中心調(diào)查顯示,CIO們對商業(yè)分析的關注度并不低于如何利用新商機的力度。例如,隨著越來越多公司不得不面對海量數(shù)據(jù),如何利用這些數(shù)據(jù)也被提上了日程。大型數(shù)據(jù)集管理與分析等技術的出現(xiàn),能夠提前幫助公司分析成本與發(fā)展趨勢,提供更有用的信息以幫助公司運營業(yè)務,這意味著公司能夠發(fā)現(xiàn)比以前更深層次的問題。
在采訪中,CIO們總結出了五點影響他們進行商業(yè)分析的IT趨勢,分別為:大數(shù)據(jù)增長、數(shù)據(jù)快速處理技術、IT商品的成本下降、移動設備的普及和社交媒體的增長。
第一,大數(shù)據(jù)。
大數(shù)據(jù)指非常龐大的數(shù)據(jù)集,尤其是那些沒有被組織、管理起來,不適于傳統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)集。比如:網(wǎng)絡蜘蛛數(shù)據(jù)、社交媒體反饋和服務器日志,以及來自供應鏈、行業(yè)、周邊環(huán)境與監(jiān)視傳感器的數(shù)據(jù)等,這些數(shù)據(jù)致使公司的商業(yè)分析變得比以往更加復雜。
盡管并不是每個公司都需要處理大型、非結構型的數(shù)據(jù)集。但是,Verisk Analytics公司CIO Perry Rotella認為所有公司的CIO都應當關注大數(shù)據(jù)的分析工具。Verisk幫助金融公司評估風險,與保險公司共同防范保險詐騙,2010年的營收超過了10億美元。
Rotella的工作是預先尋找數(shù)據(jù)間的聯(lián)系與模型。他認為,技術領導者對于數(shù)據(jù)大幅度的增長,應該持樂觀、歡迎的態(tài)度。
HMS公司CIO Cynthia Nustad認為,大數(shù)據(jù)呈現(xiàn)為一種“爆炸性”增長趨勢。HMS公司的業(yè)務包括幫助聯(lián)邦醫(yī)療保險(Medicare)和醫(yī)療補助(Medicaid)項目控制成本及私有云服務。其客戶包括40多個州的健康與服務項目和130多個醫(yī)療補助管理計劃。HMS通過阻止錯誤支付在2010年幫助其客戶挽回了18億美元的損失,節(jié)約了數(shù)十億美元。Nustad稱:“我們正在收集并追蹤大量素材,包括結構性與非結構性數(shù)據(jù),因為你并不知道你將在其中尋找到什么。”
關于大數(shù)據(jù)談論最多的一項技術是Hadoop。該技術為開源分布式數(shù)據(jù)處理平臺,最初是為網(wǎng)絡搜索索引等任務開發(fā)的。Hadoop為多個“非關系型(NoSQL)”技術(其包括CouchDB 和 MongoDB)中的一種,其通過特殊的方式組織網(wǎng)絡級數(shù)據(jù)。
Hadoop可將數(shù)據(jù)的子集合分配給成百上千臺服務器處理,而主作業(yè)調(diào)度程序?qū)⒄砻颗_服務器匯報的結果,因此其具有處理拍字節(jié)級數(shù)據(jù)的能力。Hadoop既能夠用于分析前的數(shù)據(jù)準備,也能夠作為一種分析工具。此外,沒有數(shù)千臺空閑服務器的公司,也可以從亞馬遜等云廠商那里購買Hadoop的按需服務。
Nustad稱,盡管并不是為了其大型的聯(lián)邦醫(yī)療保險和醫(yī)療補助索賠建立的數(shù)據(jù)庫,但是HMS正在探索NoSQL技術的使用。其包括結構性數(shù)據(jù),并且能夠被傳統(tǒng)的數(shù)據(jù)倉庫技術所處理。她稱,經(jīng)過實踐證明最好用的解決方案,如果從傳統(tǒng)關系型數(shù)據(jù)庫管理層面出發(fā)并不明智。不過,Nustad認為Hadoop在防止欺詐與浪費分析上發(fā)揮著重要作用,并具備能夠分析各種格式的病歷方面的潛力。
在采訪中,那些體驗過Hadoop的CIO們,包括Rotella和Shopzilla 公司CIO Jody Mulkey在內(nèi),都將數(shù)據(jù)服務作為公司業(yè)務的參考重點。
Mulkey稱:“我們正在使用Hadoop,代替以往數(shù)據(jù)倉庫的工作。更重要的是,我們獲得了以前未有的切實有用的分析技術。”例如,作為一家商務網(wǎng)站,Shopzilla每天會積累大量的數(shù)據(jù)。他稱:“以前,我們必須要對數(shù)據(jù)進行采樣并對數(shù)據(jù)進行歸類。在處理海量數(shù)據(jù)時,這一工作非常繁重。”自從采用了Hadoop,Shopzilla能夠分析原始數(shù)據(jù),跳過許多中間環(huán)節(jié)。
Good Samaritan醫(yī)院是一家位于印第安納州西南的社區(qū)醫(yī)院,其數(shù)據(jù)處于另一種類型。該醫(yī)院的CIO Chuck Christian稱:“我們并沒有我認為屬于大數(shù)據(jù)的東西。”盡管如此,管理中規(guī)定要求其整合龐大的電子醫(yī)療記錄,存儲為全新的數(shù)據(jù)類型。他稱,這無疑要求他們實現(xiàn)從數(shù)據(jù)中收集醫(yī)療保健信息。不過,這可能將在地區(qū)或國家層次的醫(yī)療保健協(xié)會中實現(xiàn),而不是在他們這種單個醫(yī)院中實現(xiàn)。因此,Christian未必會對這種新技術進行投資。
Island One Resorts公司CIO John Ternent稱,應該明確所面臨商業(yè)分析的挑戰(zhàn)取決于大數(shù)據(jù)中的“大”還是“數(shù)據(jù)”。 他認為,公司需要一種經(jīng)濟的方式來分析復雜的抵押貸款組合,目前,其正在謹慎地考慮在云上使用Hadoop的方案。據(jù)悉,Island One Resorts公司管理著佛羅里達州內(nèi)的8處度假村。他稱:“這種解決方案有可能解決我們目前遇到的瓶頸。”
第二,商業(yè)分析速度加快。
肯塔基大學CIO Vince Kellen認為,大數(shù)據(jù)技術只是加快商業(yè)分析這一趨勢的其中一個元素。他稱:“我們期待的是一種更為先進的海量數(shù)據(jù)分析方法。”與更為快速地分析數(shù)據(jù)相比,數(shù)據(jù)量的大小并不重要,“因為你想讓這一過程快速的完成”。
由于目前的數(shù)據(jù)能夠?qū)崿F(xiàn)內(nèi)存中處理,這與硬盤處理相比,其計算結果更快,即使僅處理數(shù)G數(shù)據(jù)量,效果依然明顯。
盡管經(jīng)過數(shù)十年的發(fā)展,通過緩存頻繁訪問的數(shù)據(jù),數(shù)據(jù)庫性能提升了許多。在加載整個大型數(shù)據(jù)集至服務器或服務器集群的內(nèi)存時,這一技術變得更加實用,此時硬盤只是作為備份。由于從旋轉(zhuǎn)的磁盤中檢索數(shù)據(jù)是一個機械過程,因此與在內(nèi)存中處理數(shù)據(jù)相比,其速度要慢許多。
Rotella稱,他現(xiàn)在幾秒中分析的數(shù)據(jù)在五年前則需要花上一整晚的時間。Rotella的公司主要是對大型數(shù)據(jù)集進行前瞻性分析,經(jīng)常會涉及到查詢、尋找模型、下次查詢前的調(diào)整等。在分析速度方面,查詢完成時間非常重要。他稱:“以前,運行時間比建模時間要長,但是現(xiàn)在建模時間要比運行時間長。”
列式數(shù)據(jù)庫服務器改變了關系型數(shù)據(jù)庫傳統(tǒng)行與列的結構,解決了另一些性能需求。查詢僅訪問有用的列,而不是讀取整個記錄。選取可選列,這極大地提高了組織或測量關鍵列的應用性能。
Ternent警告稱,列式數(shù)據(jù)庫的性能優(yōu)勢需要配合正確的應用和查詢設計。他稱:“為了進行區(qū)別,你必須以適當?shù)姆绞絾査m當?shù)膯栴}。”與此同時,他還指出,列式數(shù)據(jù)庫實際上僅對處理超過500G字節(jié)數(shù)據(jù)的應用有意義。他稱:“在讓列式數(shù)據(jù)庫發(fā)揮作用之前,你必須收集一定規(guī)模的數(shù)據(jù),因為它依賴重復性提升效率。”
保險與金融服務巨頭John Hancock公司的CIO Allan Hackney稱,為了提高分析性能,硬件也需要進行升級,如增加CPU芯片,其與游戲系統(tǒng)中用到的圖形處理器相同。他稱:“可視化需用到的計算方法與統(tǒng)計分析中用到的計算方法非常相似。與普通的PC和服務器處理器相比,圖形處理器的計算速度要快數(shù)百倍。我們的分析人員非常喜歡這一設備。”
第三,技術成本下降。
隨著計算能力的增強,分析技術開始從內(nèi)存與存儲價格的下降中獲益。同時,隨著開源軟件逐漸成為商業(yè)產(chǎn)品的備選產(chǎn)品,競爭壓力也導致商業(yè)分析產(chǎn)品的價格進一步下降。
Ternent為開源軟件的支持者。在加入Island One公司之前,Ternent為開源商業(yè)智能公司Pentaho的工程副總裁。他稱:“對于我來說,開源決定著涉足領域。因為像Island One這樣的中等規(guī)模公司能夠用開源應用替代SAS進行統(tǒng)計分析。”
以前開源工具僅擁有基本的報告功能,但是現(xiàn)在它們能夠提供最為先進的預測分析。他稱:“目前開源參與者能夠橫跨整個連續(xù)統(tǒng)一體,這意味著任何人都能夠使用它們。”
HMS公司的 Nustad認為,計算成本的變化正在改變著一些基礎性架構的選擇。例如,創(chuàng)建數(shù)據(jù)倉庫的一個傳統(tǒng)因素是讓數(shù)據(jù)一起進入擁有強大計算能力的服務器中處理。當計算能力不足時,從操作系統(tǒng)中分離分析工作負載,可以避免日常工作負載的性能出現(xiàn)下降。Nustad稱,目前這已經(jīng)不再是最佳的選擇了。
她稱:“隨著硬件與存儲越來越便宜,你能夠讓這些操作系統(tǒng)處于一個商業(yè)智能層。”通過重定數(shù)據(jù)格式和將數(shù)據(jù)裝載至倉庫中,直接建立在操作應用上的分析能夠更為迅速地提供答案。
Hackney觀察認為,盡管性價比趨勢有利于管理成本,但是這些潛在的節(jié)約優(yōu)勢將被日益增長的能力需求所抵消。盡管John Hancock每臺設備的存儲成本在今年下降了2%至3%,但是消耗卻增長了20%。
第四,移動設備的普及。
與所有的應用一樣,商業(yè)智能正日益移動化。對于Nustad來說,移動商業(yè)智能具有優(yōu)先權,因為每個人都希望,Nustad能夠隨時隨地親自訪問關于公司是否達到了服務級協(xié)議的報告。她還希望為公司的客戶提供數(shù)據(jù)的移動訪問,幫助客戶監(jiān)控和管理醫(yī)療保健開銷。她稱:“這是一個客戶非常喜歡的功能。在五年前,客戶不需要這一功能,但是現(xiàn)在他們需要這一功能了。”
對于CIO們來說,要迎合這一趨勢更多的是為智能手機、平板電腦和觸摸屏設備創(chuàng)建適用的用戶界面,而不是更為復雜的分析能力。或許出于這方面的原因,Kellen認為這相對容易。他稱:“對于我來說,這只是小事情。”
Rotella并不認為這很簡單。他稱:“移動計算影響著每一個人。許多人開始使用iPad工作,同時其它的移動設備正在呈現(xiàn)爆炸式增長。這一趨勢正在加速并改變我們與公司內(nèi)部計算資源交互的方式。”例如,Verisk已經(jīng)開發(fā)了能夠讓理賠人在現(xiàn)場快速進行分析的產(chǎn)品,因此他們能夠進行重置成本評估。他稱:“這種方式對我們的分析產(chǎn)生了影響,同時也讓每一個需要它的人隨手就能使用。”
Rotella稱:“引發(fā)這種挑戰(zhàn)的因素在于技術的更新速度。兩年前,我們沒有iPad,而現(xiàn)在許多人都在使用iPad。隨著多種操作系統(tǒng)的出現(xiàn),我們正力爭搞清楚它們是如何影響我們的研發(fā)的,這樣一來我們就不必不斷的編寫這些應用了。”
Island One的Ternent指出,另一方面,為每一種移動平臺創(chuàng)建原生應用的需求可能正在消退,因為目前手機和平板電腦上的瀏覽器擁有了更為強大的功能。Ternent稱:“如果我能夠使用一款專門針對移動設備,基于web的應用,那么我并不能肯定我將會對定制的移動設備應用進行投資。”
第五,社交媒體的加入。
隨著Facebook、Twitter等社交媒體的興起,越來越多的公司希望分析這些由網(wǎng)站產(chǎn)生的數(shù)據(jù)。新推出的分析應用支持人類語言處理、情感分析和網(wǎng)絡分析等統(tǒng)計技術,這些并不是典型商業(yè)智能工具套件的組成部分。
由于它們都是新的,許多社交媒體分析工具可以作為服務獲得。其中一個典型案例是Radian6。Radian6為軟件即服務(SaaS)產(chǎn)品,近期已經(jīng)被Salesforce.com所收購。Radian 6是一種社交媒體儀表盤,為Twitte的留言、Facebook上的帖子、博客與討論版上的帖子與評論中提及的特定術語進行分析,尤其是為商標名提供生動、直觀的推斷。營銷與客戶服務部門購買后,這類工具不再依賴于IT部門。目前,肯塔基大學的Kellen仍然相信他需要對它們進行高度的關注。他稱:“我的工作是識別這些技術,根據(jù)競爭力評估哪些算法適合公司,然后開始培訓合適的人員。”
與公司一樣,大學也對其聲譽監(jiān)督十分感興趣。與此同時,Kellen表示,他可能還將尋找機會以開發(fā)專門用于解決學校所關注問題的應用,如監(jiān)督學生入學率等問題。例如,監(jiān)控學生在社交媒體上的帖子能夠有幫助學校與管理人員盡早了解學生在大學里遇到的麻煩。Kellen稱,目前戴爾已經(jīng)做了這些工作,其產(chǎn)品支持公司探測人們關于故障筆記本電腦的分析。他稱,IT開發(fā)人員還應當尋找一些辦法將社交媒體分析得出的報警信息推送至應用中,以便于公司對相關事件快速做出反應。
Hackney稱:“我們沒有訣竅,也沒有工具處理和挖掘海量社交媒體帖子的價值。不過,一旦你收集了數(shù)據(jù),你需要有能力獲取公司所需的充足信息,以將它們關聯(lián)起來。” 雖然Hackney稱John Hancock在這一領域內(nèi)的努力還處于“起步階段”,但他認為IT部門,將在公司數(shù)據(jù)的社交分析服務的數(shù)據(jù)關聯(lián)中發(fā)揮重要作用。例如,如果社交媒體數(shù)據(jù)顯示公司在中西部地區(qū)的社會評論越來越負面,那么他將希望看到,公司在該地區(qū)就價格或策略進行調(diào)整后是否會扭轉(zhuǎn)這一負面趨勢。
Hackney稱,發(fā)現(xiàn)這類關聯(lián)的意義在于讓公司領導相信對社交媒體的投資具有高回報。他稱:“在我所從事的行業(yè)中,每個人都是精算師,每個人都在計算,他們不會將任何東西建立在想當然之上。”


