国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

掃一掃
關注微信公眾號

基于數據挖掘的數字圖書館個性化服務
2007-09-25   51CTO

1 數字圖書館個性化服務的含義

近10年來,隨著“數字化生存”方式逐漸為人們所接受,數字圖書館因其信息量大、占用空間少、更新速度快、不受時空限制等特點而越來越受到人們的關注。但人們在享受著數字圖書館所帶來便捷的同時,也深受其龐大而形式多樣的信息資源困擾。因為信息資源具有較強的目標導向性,同樣的信息對于不同的個體表現出不同的價值。對單個用戶來說,不可能對數字圖書館的所有信息資源都需要,而同樣的信息也不一定會滿足所有的用戶。個性化服務是解決用戶“眾口難調”問題的關鍵,它是適應用戶多樣化需求的重要手段,也是圖書館應對信息資源多樣化的一個重要措施。

數字圖書館個性化服務是基于信息用戶的信息使用行為、習慣、偏好、特點及用戶特定的需求,向用戶提供滿足其個性化需求的信息內容和系統功能的一種服務。首先,它應該是一種能夠滿足數字圖書館用戶的個體信息需求的服務,即根據用戶提出的明確要求提供信息服務,或通過對用戶個性使用習慣的分析而主動地向用戶提供其可能需要的信息服務;其次,應該是一種培養個性、引導需求的服務,這樣可以幫助個體培養個性、發現個性、引導需求,促進社會的多樣性和多元化發展。數據挖掘是近年新興的計算技術與方法,它在科學發現、商業零售以及信用管理、醫學等領域已得到廣泛應用,并顯示出巨大的威力。最近幾年,數據挖掘技術開始應用于數字圖書館領域,使數字圖書館的功能有了較大的變化和發展。

2 數據挖掘及相關技術

數據挖掘也稱知識發現,是從數據庫中獲取人們感興趣的知識,這些知識是隱含的、潛在的。傳統的決策支持系統、知識庫中的知識和規則是由專家和程序人員由外部輸入的,是已知的,決策者可以用聯機分析處理等工具直接使用;而數據挖掘是從大量的內部數據庫中獲取尚未被發現的知識、關系、趨勢等信息。數字圖書館的數據挖掘是從數字圖書館大型數據庫、數據倉庫和浩瀚的網絡信息空間中發現并提取隱藏在其中的信息,目的是幫助信息工作人員尋找數據間潛在的關聯,發現被忽略的要素,而這些信息對預測趨勢和決策行為也許是十分有用的。數據挖掘根據其主要研究對象的數據結構形式的不同,一般粗分為數據挖掘、Web數據挖掘、文本數據挖掘3類。

2.1 數據挖掘(Data Mining)

面向數值數據的數據挖掘,通常稱數據挖掘。數據挖掘的任務主要是關聯分析、聚類分析、分類、預測、時序模式和偏差分析等。

(1)關聯分析(association analysis):兩個或兩個以上變量的取值之間存在某種規律性就稱為關聯。數據關聯是數據庫中存在的一類重要的、可被發現的知識。關聯分為簡單關聯、時序關聯和因果關聯,關聯分析的目的是找出數據庫中隱藏的關聯網,一般用支持度和可信度兩個閥值來度量關聯規則的相關性,還不斷引入興趣度、相關性等參數,使得所挖掘的規則更符合需求。

(2)聚類分析(clustering):聚類是把數據按照相似性歸納成若干類別,同一類中的數據彼此相似,不同類中的數據相異。聚類分析可以建立宏觀的概念,發現數據的分布模式以及可能的數據屬性之間的相互關系。

(3)分類(classification):分類就是找出一個類別的概念描述,它代表了這類數據的整體信息,即該類的內涵描述,并用這種描述來構造模型,一般用規則或決策樹模式表示。分類是利用訓練數據集通過一定的算法而求得分類規則。分類可被用于規則描述和預測。

(4)預測(predication):預測是利用歷史數據找出變化規律,建立模型,并由此模型對未來數據的種類及特征進行預測。預測關心的是精度和不確定性,通常用預測方差來度量。

(5)時序模式(time-series pattern):時序模式是指通過時間序列搜索出的重復發生概率較高的模式。與回歸一樣,它也是用已知的數據預測未來的值,但這些數據的區別是變量所處時間的不同。

(6)偏差分析(deviation):在偏差中包括很多有用的知識,數據庫中的數據存在很多異常情況,發現數據庫中數據存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。

常見的數據挖掘方法主要有:統計分析、歸納學習方法、仿生物技術、神經網絡、決策樹、遺傳算法、貝葉斯信念網絡、模糊集、粗糙集等,由于各種方法都有自身的功能特點以及應用領域,因此不同方法的選擇將影響最后結果的質量和效果,通常是將多種方法結合使用,形成優勢互補。

2.2 Web數據挖掘

數據挖掘的對象是傳統的數據庫或數據倉庫,而Web數據挖掘是指針對包括Web頁面內容、頁面之間的結構、用戶訪問信息、商務交易信息等在內的各種Web數據,應用數據挖掘方法及技術以發現有用的知識來幫助人們從萬維網中提取知識,改進站點設計,更好地開展電子商務或改進服務。Web數據挖掘分為Web內容挖掘、Web訪問信息挖掘、Web結構挖掘。

2.3 文本數據挖掘(Text Mining)

面向文本信息的數據挖掘,通常稱文本挖掘。當數據挖掘的對象完全由文本類型組成時,結合使用數據挖掘算法與信息檢索算法對巨量文本信息進行自動化信息處理與分析的過程叫文本數據挖掘。它包括特征提取、文本摘要、文本分類與聚類、概念操作以及探索性數據分析等工作。文本數據挖掘所應用的技術包含用于表示文檔的詞頻反文獻頻率(TFIDF)向量表示法、詞串表示法,用于文本分類的貝葉斯分類算法(Bayesian classifier)、詞集合算法(Bag of word),基于概念的文本聚類算法以及K—最近鄰參照分類算法等。

3 數據挖掘在數字圖書館中的應用

3.1 個性化服務

數字圖書館的個性化服務在整個數字圖書館系統中是很關鍵的部分,如同網絡向智能化方向發展一樣,信息服務也應“智能化”,即由被動服務轉向主動服務,由單純的信息呈現轉向信息生成。數字圖書館的個性化服務主要表現為兩個層次:第一層次為按用戶要求進行信息訂制。例如,慧聰國際I系列應用軟件中個性化信息服務軟件My info和I get,可以讓用戶根據自己的需要訂制專門信息,其功能包括數字圖書館站內搜索,Internet搜索,時間、日期、重要事件的提示,并可幫助用戶建立個性化信息空間。第二層次則是數字圖書館挖掘用戶興趣模式,主動提供服務,使數字圖書館成為一個智能型、主動性的信息提供商。

3.2 提高信息獲取速度

數字圖書館中的信息量是龐大的,在堆積如山的數據中包含著許多待提取的有用知識。對于用戶來說,他關心自己的需要是不是能夠被滿足更勝于關心數據圖書館中總的信息量。因此,要想為用戶提供更快、更有效的服務,就必須有一套很好的搜索機制。數據挖掘技術為數字化圖書館提供了先進的信息檢索工具,在數字圖書館的檢索中采用數據挖掘的相關理論和方法,設計的系統將有更大的智能性。

為保證用戶在盡可能短的響應時間內獲取所需信息,要搜集用戶每次閱讀的專題集合(瀏覽模式)作為一個事務,記錄所有用戶每一次的瀏覽過程構成事務庫,再對事務庫進行如下操作:第一,利用關聯規則采掘算法找到訪問頻率超過給定閾值的專題(項目)集,進而用分類算法把客戶的瀏覽模式與頻繁項目集進行相似匹配,將具有相似瀏覽模式的客戶組織到一個服務器上,從而減少服務器緩存和傳輸頁面的數量;第二,找到事務庫中某頻率訪問的專題集,利用關聯分析得到專題之間的關聯規則,存入服務器的知識庫,當用戶瀏覽某頁面時,網絡代理根據規則預先連接其關聯頁面,從而提高響應速度;第三,也可利用Web挖掘得到用戶訪問序列模式,根據預測,預先傳輸用戶可能閱讀的頁面。

3.3 拓展服務形式

數據挖掘可實現信息服務質量的提升和業務的拓展。數字圖書館借助現代信息技術,其意義不僅在于服務媒體和時空的轉變,更重要的是能夠借助數據挖掘技術,完善其服務結構和提升服務水平。

(1)信息檢索服務。信息檢索是數字圖書館提供的一個主要功能之一,信息檢索服務的質量是衡量數字化圖書館服務質量的一個重要標準。傳統的檢索工具缺乏結果的友好性、可理解性和交互性,往往將一大堆查詢結果線性呈現,令用戶不知所云。智能化的信息檢索不僅支持概念檢索、模糊檢索、聯想檢索及多語言檢索等,而且能迅速利用聚類算法將查詢結果分析聚類,使之條理化顯示,方便用戶篩選,同時在此基礎上確定進一步的檢索定位。例如,系統提示“Limited your research to result within one of the following categories”,從而實現交互式檢索。

(2)定題與查新服務。這兩種常用的針對科研的信息服務,其傳統方式是檢索文獻或光盤數據庫,然而在網絡時代,我們更不能忽視對外部網絡這一即時便利的信息發布平臺的搜索,才能確保查新結果的可靠性。同時,數字圖書館可運用興趣模式算法判斷并爭取潛在用戶,在服務過程中,還可利用可視化技術幫助用戶進行在線實時信息分析。

(3)信息分析服務。有專家指出,“對文本的探索性數據分析(EDA)才是真正的文本挖掘”。它是指直接對文本數據及其相互間的關系進行分析,從而識別出未知的、有用的知識的過程。例如,利用文本EDA形成一些科學假設等。基于此,數字圖書館可提供面向商業用戶的信息分析,幫助它們確定發展和競爭策略,實現自身的收益。

4 構建數字圖書館個性化服務系統

利用數據挖掘技術構建數字圖書館個性化服務系統的前提和基礎是擁有大量、真實的數據積累,沒有數據積累,數據挖掘將無用武之地,因此要踏踏實實做好基礎數據庫的建設。在建庫及數據挖掘的整個過程中,需要各方人員共同參與,通力合作。

4.1 提取原始信息和收集用戶特征

用戶通過瀏覽器訪問數字圖書館時,系統可以記錄下來的用戶訪問數據有兩類:用戶信息和用戶行為特征。用戶信息包括用戶的姓名、性別、年齡、職業、愛好、教育程度以及用戶訪問IP地址等;利用Web日志記錄可獲得用戶的行為特征,如對知識點的點擊率、停留時間、訪問次數、下載次數、搜索關鍵詞及模式等信息,還有用戶的主觀信息,如網絡調查、BBS留言等。準確把握用戶的行為特征和偏好,是提供更精確、更符合用戶需求的信息服務的首要條件。

4.2 數據預處理和數據轉換

對收集到的數據進行加工處理和組織重構,如檢查數據的完整性及數據的一致性、去除噪聲或刪除無效數據、填補丟失的域、去除空白數據域、考慮時間順序和數據變化;找到數據的特征,用維變換或轉換方法減少有效變量的數目,找到數據的不變式,構建相關主題的數據倉庫,為下一步的數據挖掘過程提供基礎平臺,做好前期準備。

4.3 確定數據挖掘目標

數據挖掘的目標切忌空而大,應結合實際情況,細化、清晰。例如,根據用戶興趣的不斷變化,利用數據挖掘技術發現用戶的最新需要,或者根據用戶的興趣度,推薦相關專題信息,并提供個性化界面等。

4.4 數據挖掘

根據挖掘目標和數據特點選擇相應的算法,在凈化和轉換過的數據集上進行數據挖掘。選擇某個特定數據挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數據中的模式,進行數據挖掘、搜索或產生一個特定的感興趣的模式或一個特定的數據集,在此基礎上進行分析與評估,檢驗數據挖掘所得到的知識模式。

4.5 結果分析和知識的運用

對數據挖掘的結果進行解釋和評價,用預先、可信的知識檢查和解決數據模式中可能的矛盾,以改善數據倉庫,轉化成為能夠最終被用戶理解的知識,將分析所得到的知識加載到實際運行系統中。數據挖掘的過程是一個反復進行的過程,很難一步到位,需要對挖掘結果進行不斷的實踐應用、測試、修改、比對,直到最后達到用戶滿意為止。

5 結語

數字圖書館個性化服務改變了圖書情報機構以往“我提供什么用戶就接受什么”的運作方式,開創了“用戶需要什么我就提供什么”的發展思路。根據LITA(Library and Information Technology Association)的研究預測,個性化服務將成為未來數字圖書館技術發展的主要趨勢。事實也證明,隨著網絡用戶群的日益增長,更多的用戶期望能得到具有針對性的、個性化的信息服務和用戶支持。數據挖掘技術因其在海量信息資源中的智能表現,能為數字圖書館的個性化服務建設提供不可或缺的技術支撐。盡管數據挖掘作為一門前沿技術,自身還在不斷發展完善,還面臨著許多問題,如數據挖掘語言的標準化、對多種類型多層次知識的有效挖掘方法、數據的可視化等,但隨著研究的深入,數據挖掘技術必將對數字圖書館的建設產生積極的影響。

熱詞搜索:

上一篇:歸檔 (Archiving)應用的最佳實踐
下一篇:專家提醒:移動存儲信息安全是隱患

分享到: 收藏
国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区
国产精品美女视频| 欧美乱熟臀69xxxxxx| caoporm超碰国产精品| 一区精品在线播放| 色婷婷av一区| 日欧美一区二区| 日韩你懂的电影在线观看| 裸体健美xxxx欧美裸体表演| 欧美日韩亚洲国产综合| 亚洲第一狼人社区| 久久亚洲免费视频| 欧美在线免费视屏| 精品写真视频在线观看| 亚洲人成精品久久久久久| 欧美美女黄视频| 国产一区二区精品在线观看| 亚洲丝袜精品丝袜在线| 91精品国产综合久久小美女| 成人一区在线观看| 日本中文字幕一区二区视频| 中文字幕高清一区| 欧美日韩精品久久久| 国产精品亚洲一区二区三区妖精| 国产精品不卡在线| 日韩视频免费观看高清在线视频| 成人毛片视频在线观看| 美女被吸乳得到大胸91| 国产无一区二区| 欧美性生活影院| 丁香婷婷综合色啪| 久久黄色级2电影| 亚洲精品伦理在线| 精品动漫一区二区三区在线观看| 色婷婷激情一区二区三区| 精品一区二区三区久久| 亚洲va欧美va国产va天堂影院| 国产精品美女久久久久aⅴ | 午夜欧美大尺度福利影院在线看| 国产偷国产偷亚洲高清人白洁| 欧美一级黄色录像| 欧美人动与zoxxxx乱| 91在线精品一区二区| 成人精品免费网站| 国产精品 欧美精品| 国产在线播放一区三区四| 亚洲二区在线视频| 亚洲一区二区三区在线播放| 亚洲精品免费播放| 一区二区三国产精华液| 亚洲美女在线国产| 亚洲国产成人av网| 一区二区在线观看视频| 亚洲精品欧美激情| 一区二区三区在线观看动漫| 亚洲一二三区在线观看| 五月激情综合色| 免费一级片91| 国产在线国偷精品免费看| 国产一区二区三区免费播放 | 精品无码三级在线观看视频| 青椒成人免费视频| 国产在线精品免费| 91在线视频在线| 欧美日韩精品一区视频| 欧美一区二区三区视频免费| 精品国产一区二区三区不卡| 久久九九久久九九| 亚洲精品高清视频在线观看| 亚洲成人久久影院| 极品少妇一区二区三区精品视频| 国产69精品一区二区亚洲孕妇| 国产亚洲一区二区三区四区| 国产女主播视频一区二区| 中文字幕日本乱码精品影院| 午夜精品免费在线| 国产精品538一区二区在线| 99精品视频一区| 欧美一区二区久久久| 国产午夜精品一区二区| 亚洲精品亚洲人成人网| 久久国产剧场电影| 色狠狠色狠狠综合| 久久综合资源网| 亚洲在线观看免费| 国产精品一区二区黑丝| 欧美中文字幕一区二区三区| 精品国产免费一区二区三区四区| 亚洲女女做受ⅹxx高潮| 国产精品综合av一区二区国产馆| 91色.com| 国产午夜亚洲精品午夜鲁丝片| 亚洲一区二区美女| 亚洲福中文字幕伊人影院| 国产一区二区三区在线观看免费视频| 色又黄又爽网站www久久| 精品国产一区二区精华| 亚洲成av人片在www色猫咪| 国产成a人亚洲| 日韩三级视频在线看| 一区二区三区资源| 成人av在线资源网| 亚洲精品一区二区三区精华液 | 日本一区二区视频在线| 日韩在线观看一区二区| 99久久伊人网影院| 精品少妇一区二区三区日产乱码 | 亚洲1区2区3区4区| 波多野结衣精品在线| 日韩美一区二区三区| 丝袜亚洲另类欧美| 欧美日韩三级在线| 亚洲综合清纯丝袜自拍| 粉嫩一区二区三区性色av| 精品国产1区二区| 日本视频中文字幕一区二区三区| 91日韩精品一区| 综合色中文字幕| 99精品视频在线免费观看| 国产精品伦理一区二区| 国产精品99久久久久久久vr| 欧美精品一区二区高清在线观看| 日本一不卡视频| 日韩一区二区三区免费看| 日韩精品视频网| 日韩欧美国产综合在线一区二区三区| 午夜不卡av免费| 欧美二区在线观看| 免费成人在线视频观看| 日韩午夜精品电影| 久久99精品一区二区三区 | 久久亚洲精华国产精华液| 九一九一国产精品| 久久久午夜电影| 波多野结衣一区二区三区| 亚洲视频免费观看| 欧美亚洲尤物久久| 亚洲天天做日日做天天谢日日欢| 五月天亚洲婷婷| 91麻豆精品国产91久久久久久久久 | 91麻豆精品国产91久久久更新时间| 夜夜精品视频一区二区| 91福利精品视频| 日av在线不卡| 久久综合国产精品| 99久久综合精品| 丝袜美腿成人在线| 国产亚洲欧美日韩在线一区| 粉嫩高潮美女一区二区三区 | 91原创在线视频| 亚洲男女一区二区三区| 日本久久电影网| 日韩高清在线一区| 久久亚洲捆绑美女| 91视频免费看| 奇米一区二区三区| 亚洲国产激情av| 在线不卡免费欧美| 国产成人精品影院| 亚洲电影中文字幕在线观看| 精品国产一区二区三区不卡| 99久久免费视频.com| 日韩电影一区二区三区四区| 久久久www免费人成精品| 欧美性猛片aaaaaaa做受| 久久66热偷产精品| 亚洲男人都懂的| 欧美成人一区二区三区在线观看 | av午夜精品一区二区三区| 亚洲va欧美va天堂v国产综合| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 亚洲国产精品精华液网站| 久久久久久综合| 欧美高清视频在线高清观看mv色露露十八 | 午夜精品久久久久久久99水蜜桃| 精品国产精品网麻豆系列| 一本大道综合伊人精品热热| 国产资源在线一区| 无吗不卡中文字幕| 一区二区三区欧美日韩| 国产日韩欧美高清在线| 欧美一区二区免费观在线| 91成人在线精品| www.亚洲色图.com| 国产精品一级片| 久久国产夜色精品鲁鲁99| 亚洲成人福利片| 一个色综合av| 亚洲四区在线观看| 国产日韩欧美高清在线| 日韩三级高清在线| 欧美日韩综合色| 欧美在线观看视频一区二区| 99久久er热在这里只有精品15| 国内久久精品视频| 九九视频精品免费| 狠狠色丁香久久婷婷综合丁香| 日韩av午夜在线观看| 天天操天天色综合| 日韩极品在线观看| 日本不卡的三区四区五区|