国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

掃一掃
關注微信公眾號

終極搜索引擎
2007-09-12   《信息周刊》雜志

谷歌、微軟、雅虎等公司正著手開發新一代技術,讓信息搜索更為自動化和個性化。

  搜索引擎,也就是那個小小的瀏覽器工具,你在其中輸入一個詞,并點擊回車,之后就滿懷希望開始等待,可它返回的往往是數百萬個毫不相關的互聯網地址。微軟公司(Microsoft,下稱微軟)稱,人們平均要花11分鐘的時間才能找到所需內容,而且還有一半的人在達成此目標之前即中途放棄搜索。據高德納公司(Gartner)估計,由于訪問者根本無法找到所需內容,有一半的潛在Web銷售因此而喪失掉了。

  谷歌公司(Google)、微軟、雅虎公司(Yahoo)、以及其他數十家專業搜索公司,其中也包括那些專注于商業領域的搜索公司在內,已開始展開新一代搜索技術的開發競賽,以幫助人們更高效地獲取所需信息。有了這些新興的搜索工具,人們無需再使用混合語言一遍又一遍地簡化搜索。他們可以用英語或其他語言查詢問題,或者根本不提出任何問題,只是基于其以前的查詢或所用的應用軟件,就能自動收到查詢結果。

  專注于中文搜索的百度公司(Baidu,下稱百度)雖然沒有就下一代搜索的話題表態,但是根據百度現有的一系列產品,從百度貼吧、百度知道、百度百科到百度空間等服務,不難看出這家公司正在利用用戶生成內容(UGC)提高自身對于用戶興趣點捕捉的精確度。

  除了文字內容之外,用戶實際得到的搜索結果還將包括音頻和視頻文件、PowerPoint幻燈和其他信息圖表、以及結構化數據,這些信息全部精選自Web、PC、以及公司數據庫,并最終匯成統一的信息流。假以時日,圖像搜索甚至能在圖像中檢測信息,而無需對元數據進行解析。

  搜索結果將更加精確,并經過自動歸納總結,按照個人偏好依相關程度進行排序。聚簇、標簽云(Tag Cloud)等可根據參數擴大或縮小搜索的新表達方法以及自動分類,可以簡化對搜索結果的處理。同時,采用標簽服務、社會性書簽服務(Social Bookmarking)以及共享搜索等方式,充分發揮人類智慧特別是群體智慧的力量,搜索引擎將得到極大改進。

  而且,我們無需翹首以盼,等待這些高速搜索引擎的出現。如下一些高級功能已隨處可見。

  語義搜索

  當今多數搜索引擎都要求使用速記語言,也就是某些人稱作Keywordese的語言。“那就像跟一個2歲小孩說話。” Powerset公司首席執行官(CEO)巴尼·佩爾(Barney Pell)形容道。Powerset是一家將自然語言處理技術應用于搜索領域的初創公司。未來10年,佩爾指出,搜索引擎“理會意思”的本領會更為高強。

  早在2000年,百度就曾經大力協助當時的ChinaRen公司推出了一個名為“孫悟空搜索”的提問式搜索引擎。“我當時使用過孫悟空搜索,感覺它對中文語義的理解已達到了相當的深度,雖然那時的技術可能還比較粗淺。”李鵬在接受《信息周刊》采訪時回憶道。李鵬是加拿大英屬哥倫比亞大學(University of British Columbia)計算機專業的在讀博士,同時也是微軟位于美國華盛頓州雷德蒙德園區(Redmond)的實習研究人員,專注于語義網(Semantic Web)的研究。

  現在,Powerset公司、Hakia公司、以及其他一些公司已開始開發新的搜索引擎,這些搜索引擎應用語言學解釋問題,分析Web內容,并且必要時,還通過與用戶的互動來優化搜索結果。Hakia公司CEO里薩·博坎(Riza Berkan)憧憬說,未來搜索引擎會成為“知識淵博的工具,如果我們能教會它們如何講話、如何理會用戶的意思。 ”

  語義搜索引擎對語言進行解析,就像學生學英文一樣,用字典和辭典來解釋字的意思,并依據句法的基本規則將之連起來。比如,“國際商業機器公司(IBM)于1996年斥資7.43億美元買下了Tivoli公司”這句話,包括了購買、購買的主語、購買的時間、以及買入價等幾個概念。

  在理解問題之后,基于語義網的搜索引擎將會給出智能的回答。“比如,你表示要預約一個牙醫,”李鵬給出了一個例子,“搜索引擎有可能從你的OutLook找出你的時間表,然后從你牙醫的網站上找出他或她的時間安排情況,最后歸納出共同的時間點,再給你提出精確的預約建議。”

  迄今為止,盡管Hakia公司的搜索引擎已能夠利用語言提示在它自己甚至都不能領會的概念中發現大致意思,但人們應用語言規則,并對分類進行定義,以縮小搜索范圍的做法仍然有助于推進搜索引擎的開發。“如果它能做到完全自動化,我們就能宣告自己發明了新人類,”博坎調侃道。谷歌和雅虎等在開發Web搜索引擎時也都會雇傭語言學家,盡管他們的搜索引擎還遠不能與Hakia或Powerset的語義搜索相提并論。谷歌的搜索引擎能進行拼寫檢查,并返回所搜索的單詞的同義詞和變體,但并不能始終準確地解答問題。

  聯邦保存研究所(Federal Preservation Institute)的歷史保存學習門戶(Historic Preservation Learning Portal)采用的是企業搜索公司Autonomy公司的技術。該網站存有大量記錄保存規則和保存方法的文檔,研究所應用語義搜索幫助那些非專家類的用戶發現其所需信息。“他們應用這些工具,用普通語言即可提問,而其問題中無需帶有關鍵詞可能會含的技術術語。”該研究所總監康斯坦絲·拉米雷(Constance Ramirez)介紹說。比如說,有個網站訪問者可能會詢問加里福尼亞州紅屋頂房屋的保存情況,“看到返問的各類結果都是相關的,那種感覺真是妙不可言。”拉米雷回味道。

  IBM也在致力于醫療衛生和政府等領域的專業文本分析研究。客戶利用其名為OmniFind Analytics的搜索引擎,甚至可以分辨諸如情緒這樣的細枝末節之處,而且不管搜索到的文檔對某個主題的記錄或分析是積極的還是消極的,客戶還可對公司內使用的專業詞匯、概念、以及專有名詞進行定義。

  “但是,基于精確語義的搜索有一個前提,那就是信息來源必須基于資源描述框架(RDF)、Web本體語言(Web Ontology Language,OWL )等信息格式。”李鵬指出,“信息源的格式化需要得到提供者的認可和規范,這本身就需要相當長的時間,是一個漸進的發展過程。”

  無關鍵詞搜索

  好運難遇。目前仍處于開發階段的這類搜索引擎無需提示,即會根據你以前的查詢替你完成搜索;否則它們可能會在背景中搜索,根據Word文檔或Excel電子表中的上下文內容提供相關信息。蘋果公司(Apple)的iTunes項目與此類似,如果聽者從硬盤中播放了一部音樂作品,iTunes Store即會顯示相關的其他音樂。

  說著容易,做起來難。“在搜索領域,遭遇意外的好運比登天還難。”國際數據公司(IDC)分析師蘇珊·費爾德曼(Susan Feldman)指出。在這種計算密集型的環境中,設計接口著實不易,她補充道。

  MediaRiver公司開發了一種可下載的搜索工具,這款名為Watson的產品,無需用戶發出查詢請求,即可利用Web瀏覽器或PC應用程序中的信息對Web進行搜索,并返回結果。這是一款出色的產品,可不是一項好生意,MediaRiver的CEO阿爾·瓦塞爾博格(Al Wasserberger)總結說。但是,Watson在MediaRiver的ClickSurge Widget中找到了用武之地,終于可以再現活力,后者負責確定網頁上的重要概念,并將相關鏈接嵌入到網頁的其他位置。Blinkx公司有款與此近似的產品Pico,但在該公司的網站上,Pico卻居于次要地位,因為這家公司要全情貫注于視頻搜索領域。

  盡管如此,無關鍵詞搜索的前景依然一片光明。谷歌和雅虎長期以來一直在不斷提醒用戶,他們可以訂購搜索,當有新結果產生時他們即會收到電子郵件。用戶只需輕輕點擊一下StumbleUpon和Google Dice等瀏覽器工具欄按鈕,系統即可根據Web歷史記錄將之帶到推薦的站點上。雅虎的Y!Q服務和Mozilla公司的火狐瀏覽器(Firefox)都具備在網頁上突出顯示某個字或詞的功能,用戶只需于其上點擊一下,即可執行搜索。

  雅虎的這項服務可以增強搜索頁上下文的關聯性。比如,在有關大學橄欖球的網頁上搜索“佛羅里達鱷魚隊(Florida Gators)”,返回的結果肯定不會跟大沼澤國家公園(Everglades)中的那類爬蟲有關。

  個性化搜索

  “內戰”這個詞,在不同的人心中會激起完全不同的情感,其含義也大相競庭。在美國歷史上,它意味著一個國家的誕生;而在利比亞,它是武裝沖突的代名詞;它還是槍與玫瑰樂隊的一首歌的名字。搜索引擎對搜索者了解得越多,它對搜索者意圖的猜測也才會越有根據。

  從用戶數量來看,谷歌的個性化主頁iGoogle是該公司旗下成長最為迅速的產品。谷歌明白用戶需要什么,并通過RSS種子和谷歌Gadgets來體現其對用戶需求的理解。而且,用戶也能在谷歌的首頁上創建推薦(Recommendations)標簽,谷歌搜索系統可據這些用戶以前的搜索提供相關信息,并置入該標簽內。

  擁有谷歌賬戶的用戶均有機會將其曾進行的搜索保存起來,“疑問因而解除”,谷歌個性化部門技術負責人塞普·卡姆瓦爾(Sep Kamvar)指出。比如,有個女子對計算機感興趣,而且她會定期搜索“蘋果”這個詞,這說明與其說她對計算機有興趣,不如說她對計算機廠商的興趣更大。利用存檔數據,谷歌可通過瀏覽器工具欄按鈕、iGoogle標簽或者網絡搜索歷史(Web History)頁面自動為用戶推薦所需信息。

  大量與搜索相關的信息保存在谷歌的數據庫中這一事實,引發了有關隱私的擔憂;基于同樣的原因,雅虎等谷歌競爭對手也不再無畏地長驅直入個性化搜索領域。谷歌爭辯說,它在使用歷史搜索數據時所公開的透明度,恰是其為避免引起用戶激烈反對而采取的關鍵措施。“如果我們打算使用你搜索過的某些內容,我們希望你能了解這一點,而且你有權做出決定。”卡姆瓦爾表示。

  商業環境中也需要個性化。例如,Vivisimo公司搜索產品的管理程序給招聘人員的人事文檔的賦值,比如說,就可以比給銷售人員的高。“內部網的一個優勢在于,人們無需再以匿名的形式存在。”IBM OmniFind搜索平臺部門杰出工程師(Distinguished Engineer)兼產品經理邁克·莫蘭(Mike Moran)指出。OmniFind搜索平臺有4個版本:企業版、分析版、可在搜索結果中添加原文鏈接的版本、以及與雅虎共同開發的免費版。出版商銳德商訊集團(Reed Business)搜索部門首席運營官(COO)格雷伊姆·麥克雷肯(Graeme McCracken)強調說,事實表明,經常使用搜索的用戶最需要個性化特性,而那些偶爾一用網絡的訪問者通常也對個性化沒什么興趣。

  社會搜索

  網絡出現伊始,搜索即有其社會性的一面。雅虎創立之初,其網站不過是個鏈接列表,只是列出了公司創始人認為有趣的網站鏈接。谷歌的PageRank算法,其原理某種程度上也只是以網站上一個頁面通向其他頁的鏈接數量為基礎。隨著Web 2.0技術的興起,搜索引擎也開始進一步推動社會搜索與社會性書簽服務、標簽服務、共享搜索、以及功能隨用戶數量增加而改善的搜索系統等概念的融合。

  雅虎的戰略將因其社會特性而顯得卓而不群,雅虎搜索副總裁提姆·梅爾(Tim Mayer)指出。Yahoo Answers可針對Web查詢提供人性化的解答,最近該服務已開始出現在常規搜索結果中。此外,雅虎收購了社會性書簽站點Deli.cio.us,此舉也可能會給雅虎帶來一些變化,比如將社會性書簽服務變為雅虎網站的一個標準特性。

  微軟已經擁有名為Collections的共享搜索特性,人們可利用該特性共享注釋圖。目前,微軟也在尋求解決辦法,以在Web范圍內部署可視的、用戶生成的“標簽云”,該公司搜索和廣告部門高級副總裁薩特亞·內德拉(Satya Nadella)介紹說。企業搜索公司Vivisimo公司也在對一項特性進行測試,公司員工利用該項特性,可以給搜索結果打標簽、評級、分類、并做評注。而Connectbeam公司則將標簽和社會性書簽技術作為其他企業搜索產品上的一個層來銷售。

  標簽云和社會性書簽服務也有局限性。標簽太多會降低搜索的可靠性,太少又有可能導致相關信息的大量堆積,Autonomy公司CEO邁克·林奇(Mike Lynch)分析道。領導著谷歌反垃圾團隊的高級工程師馬特·卡茨(Matt Cutts)表示,標簽和社會性書簽服務是垃圾郵件制造者和搜索引擎優化濫用者攻擊的主要目標。

  無論如何,谷歌已開始推進社會搜索服務。在iGoogle服務中,“魔術標簽”可基于其他谷歌用戶創建的標簽,提供與搜索查詢(比如說“旅行”一詞)相關的谷歌小工具(Gadgets)和Feeds菜單。“我太喜歡這種算法了,因為它提供的Gadgets并不包括‘旅行’這個詞本身在內,但卻極為相關。”卡姆瓦爾表示。

  Collarity公司則在其Relevance Engine中,運用“協同過濾”將上述概念又推進了一步。福克斯新聞網(FoxNews.com)即使用該個性化搜索引擎。如果某人在該站點上搜索“伊拉克”,這一搜索引擎會根據以前其他人在搜索“伊拉克”這個詞之后的行為,列出推薦的鏈接清單。盡管如此,搜索引擎最終只能將那些在伊拉克新聞上花費大量時間的用戶的瀏覽習慣納入推薦引擎,因為這些人代表著對伊克拉有高度興趣,而且應該也具備更多相關知識的一群人。“我們認為,最要緊的是在相關領域內,找到能最好地解答你的問題的人。” Collarity公司市場總監鮑勃·拉斯塔德(Rob Rustad)表示。

  結果導向

  “誰說一個編輯框外加10個藍色鏈接就是搜索引擎了?”微軟的內德拉質疑道。這個問題提得好,但在搜索的新世界里,它就顯得不那么重要了。現在,人們已發現了用于顯示搜索結果的新辦法,從自動化聚簇和分類到對問題的實際解答,各種都有。在微軟的Live Search中,鍵入“西雅圖交通”幾個字,就會有一幅地圖彈出來,上面繪有公路,并用色碼標示出路面上車輛的行駛速度。與此近似,在谷歌網站上鍵入“亞伯拉罕·林肯的生日”,第一個搜索結果會顯示實際日期——1809年2月12日,后面跟著一系列相關地址鏈接。

  Vivisimo公司同時也運行著一個名為Clusty的消費者搜索引擎,該網站可通讀網頁的文本內容,并通過語義理解,在搜索返回的前200個文檔中,迅速建立分類。Vivisimo的Clustering Engine可以確定諸如“漂亮”和“華麗”這樣的詞,其意思之間存在關聯性,然后根據這類共性對搜索結果進行分組。“主題可幫助人們根據上下文進一步理解數據的含義,并且大致明白信息是如何被組織到一起的。”該公司市場副總裁麗貝卡·湯姆遜(Rebecca Thompson)介紹道。

  在商業環境中,計算機生成的聚簇顯得尤為重要。因為在商業環境中,用戶不能根據某個站點的流行程度來確定其相關性。與Vivisimo一樣,Endeca公司也使用自動分類的辦法,并采用“導航”的方式,他們這樣做基于如下理論:人們通常不對特定的內容進行搜索,而其期望搜索引擎能幫助發現的內容,往往是他們不知道如何清楚、準確地提問的。

  美國最大的家具建材零售商家得寶公司(Home Depot)的網站即采用Endeca技術,從中可管窺Endeca前述想法在實踐中的應用。 例如,對“冰箱”一詞的搜索會產生大量信息,并依類別、價格、以及品牌等進行分組,而且對于每一組都能進一步進行搜索。分類通常以每個搜索條目的元數據為基礎。“未來的設想是,對信息進行歸納總結,整理成用戶期望看到的形式。” Endeca公司戰略拓展與市場副總裁馬特·艾什納(Matt Eichner)介紹說。

  Factiva公司的搜索工具采用Fast Search & Transfer公司的技術,用于發現發表在網絡日志、媒體站點上有關某個品牌的任何內容,并將這些內容分為喜歡的和不喜歡的,還對之進行相應的量化,輔以線圖,以顯示人們的認識隨時間而改變的過程。

  另外一個較早利用搜索引擎收集新知識的例子是谷歌Trends。它是谷歌實驗室(Google Labs)的一個項目,可以幾乎同時滿足搜索者完全不同的興趣[比如太浩湖(Lake Tahoe)和雪橇]。“如果計算機能進一步理解這個世界,那又會是怎樣的情形?”卡茨自問自答地說,“如果你能解決這個問題,你就能真正理解人們在搜索些什么。”

  多樣化搜索

  今天的Web搜索引擎可以對基于超文本鏈接標記語言(HTML)的文件、PDF格式文件、Office文件、以及音頻、視頻和圖像元數據進行篩選。而未來的搜索引擎不僅可擺脫對元數據的依賴,可對圖像、音頻、以及視頻直接進行搜索,還能在其他搜索結果中納入這些形式的內容。“你不會看到分別面向音頻、視頻、以及文本的不同系統。” Autonomy公司CEO林奇簡捷地總結道。

  盡管并非總能面向不同數據類型建立恰當的關聯模型,谷歌的通用搜索仍可謂這一領域的開先河者;其他進展還包括:Autonomy技術可察覺情景的變化,并將視頻分配到可搜索的內容中。而且,Autonomy公司、Sonic Foundry公司、以及Nexidia公司的搜索引擎都具備對視頻或音頻的音軌進行搜索的能力。

  衣服和服飾銷售站點like.com,算得上說明圖像搜索技術發展方向的一個典型例子。利用該網站提供的類似搜索(Likeness Search),用戶可依各自的尺寸,從顏色、外形、以及款式等方面提供個人的設計參考意見。目前,微軟和谷歌都已開發出了針對人的面孔的搜索技術。

  盡管如此,圖像搜索還遠不能與文本搜索相提并論,IBM的莫蘭指出。在搜索引擎習慣觀看圖片并能用語言對之進行描述之前,在相當長一段時間內,人們還得繼續給圖像和視頻添加文本標簽。

  無論如何,在需求的推動下,搜索創新仍不斷涌現。隨著網絡上和公司數據庫中信息成PB(Petabyte,1Peta=1015)的增加,用于幫助人們發現所需的工具也必須得隨之改變。

  搜索引擎大比拚

  領先者

  Autonomy公司企業搜索產品支持歸納、聚簇、以及分析等功能。

  Fast公司企業搜索平臺提供移動搜索、個人搜索選擇。

  谷歌公司最新關注點在于個性化的搜索結果,并提供用于商業市場的搜索工具。

  微軟公司除了PC和Web搜索,還推出了Live Search Maps、Live Search for Mobile等服務。

  雅虎公司通過收購Del.icio.us,大力推進社會性搜索,同時也推出了Yahoo Answers服務。

  挑戰者

  Collarity公司Relevance Engine根據其他人曾經搜索的內容對搜索結果進行過濾。

  Endeca公司信息訪問平臺(Information Access Platform)自動對搜索結果進行分類。

  Hakia公司語義網搜索引擎目前處于Beta版測試中。

  國際商業機器公司OmniFind平臺有企業版和分析版、以及與雅虎共同發起的免費版。

  Like.com可視搜索引擎處于測試中。

  MediaRiver公司ClickSurge平臺利用網頁內容進行搜索或推薦相關內容。

  Powerset公司目前與施樂帕洛阿爾托研究中心(Xerox PARC)一道,共同開發自然語言Web搜索引擎。

  Vivisimo公司Velocity企業搜索引擎在聚簇中對結果進行分類。

  商業搜索無處不在

  企業搜索市場在迅速膨脹,據國際數據公司(IDC)數據,這一市場去年增長了39%,已達到14億美元。而這一市場上的產品,其價格和特性也相距甚遠,從國際商業機器公司(IBM)免費的OmniFind Yahoo Edition到成本高達幾十萬美元的系統,無所不包。

  對于只有幾個文檔的內容倉庫或者低流量的網站等輕量級搜索而言,OmniFind Yahoo Edition或起價為1,995美元的谷歌 Mini Search Appliance足以勝任。而那些擁有上千名員工的大公司,所有員工日常工作幾乎都要用到搜索功能,比如法律部門就需要使用電子搜索(E-Discovery)服務,這些公司需要的可能就是Autonomy公司、Fast Search & Transfer公司(下稱Fast)、或者Endeca公司的高端搜索系統。“人們需要不同的工具解決不同的問題。”IDC分析師蘇珊·費爾德曼(Susan Feldman)一言以敝之。

  Web搜索工具與企業級搜索產品往往在公司中同時存在,面對Web,企業員工會使用精選的瀏覽器搜索工具;而在訪問企業防火墻內的數據庫時,他們又會選擇公司提供的搜索應用軟件。

  安裝OmniFind Yahoo Edition,只需點擊三下鼠標,以選擇要搜索的內容倉庫和內部站點。另一方面,如果某家公司希望根據員工崗位而對搜索進行個性化設置,增加安全層,對搜索結果進行分類,并直接給出問題的答案,那其用來部署這一項目的時間可能長達幾個月。

  現在,企業級搜索工具欄已無處不在。Fast產品與微軟公司(Microsoft,下稱微軟)的SharePoint之間建有連接程序;Autonomy公司也將其搜索引擎與微軟的Outlook工具欄和思愛普公司(SAP)的應用軟件集成在一起;客戶關系管理(CRM)軟件和工作流應用軟件中也開始出現搜索框,而那通常是軟件廠商自己設置的。

  現在的產品已能夠對越來越多的商業信息進行搜索,包括PDF格式文件、SQL Server數據庫、以及文件系統等在內。荷蘭WCC公司等專業廠商甚至可以將指紋搜索與其他數據結合起來,以發現與目標身份相符的人。

  搜索將日益成為用戶的好幫手,既可以自動地利用內容倉庫中的信息完成填表操作,奧多比公司(Adobe)的Intelligent Document Platform即有此功能;亦可對法律文檔進行掃描,以自動創建律師檔案,就像Recommind公司的MindServer Legal所做的那樣。

熱詞搜索:

上一篇:卡巴斯基:網游已成黑客輕松賺錢天堂
下一篇:無人看護的財富

分享到: 收藏
主站蜘蛛池模板: 阳高县| 高雄市| 宜昌市| 鸡西市| 雅安市| 布拖县| 丰台区| 盐城市| 崇左市| 水富县| 商洛市| 罗江县| 西丰县| 正宁县| 富川| 东乌珠穆沁旗| 绥江县| 德州市| 易门县| 镇赉县| 兴城市| 濮阳县| 保山市| 太白县| 宁陵县| 渭南市| 漯河市| 竹溪县| 绵阳市| 东阳市| 金秀| 郴州市| 吕梁市| 东丽区| 乐安县| 丹东市| 农安县| 淮滨县| 桂林市| 宁津县| 昭平县|