淺析聚類搜索引擎研究進展 |
發布時間: 2012/8/27 9:41:37 |
摘要:聚類搜索是目前互聯網信息檢索和數據挖掘領域的研究熱點。給出了聚類搜索引擎的基本工作過程并據此概述其國內外技術發展現狀,從聚類對象、聚類功能、聚類算法三個方面對現有聚類搜索引擎進行分析,從工作流程、聚類方法、應用現狀等方面對兩個典型聚類搜索系統進行了分析和評價,最后給出了聚類搜索引擎的發展趨勢。
隨著互聯網技術和互聯網應用系統的快速發展,各個領域的互聯網應用系統都已經積累了海量的Web數據,包括產品數據、用戶數據、評價數據、關聯數據、狀態數據等等。這些數據不僅內容極其豐富,而且很大程度上都開放給互聯網用戶,可以免費的訪問、下載和處理。這就為進一步集成和開發這些Web數據的潛在價值,建立增值應用提供了重要基礎。聚類搜索是近年來發展最為迅速的互聯網數據集成和增值技術。聚類搜索是在垂直搜索基礎上發展起來的新型搜索技術。垂直搜索是主要針對行業的專業搜索,側重于某一行業領域,其目的是使用戶能夠更加方便地找出所需的專業信息。而聚類搜索是為了進一步提高搜索的精度使其符合用戶的搜索習慣和興趣,在搜索引擎的搜索結果中進行聚類,把搜索出來的信息進行分類處理,將使信息資源更加清晰明了。 目前國內對聚類搜索引擎的綜述主要見于文獻[1]和文獻[2],雖然這兩篇文章對聚類搜索引擎進行了很好的綜述和分析,對聚類搜索引擎的形成和發展過程進行了說明,并對主流聚類搜索系統進行了測評和分析,但是對于聚類系統的功能分析還不夠詳盡,對于聚類搜索引擎未來的發展沒有給出明確的定位。 本文首先給出了典型聚類搜索引擎系統的基本工作流程,對聚類搜索引擎的發展歷史和現狀進行了概括式綜述,然后從聚類對象、聚類功能和聚類算法三個角度對聚類搜索引擎進行研究,并全面分析了若干著名聚類搜索引擎。 本文結構:第1節介紹聚類搜索引擎的發展現狀;第2節對聚類搜索引擎的功能進行分析;第3節對典型聚類搜索引擎進行綜述;第4節描述聚類搜索引擎的發展趨勢;第5節總結全文。 1 聚類搜索引擎的研究現狀 1.1 聚類搜索引擎概念和工作過程 所謂聚類搜索引擎,就是運用聚類技術對搜索結果進行自動聚類分析的搜索工具。其特點是去重性強、分類性強、匯集性強,即可以及時去除重復信息,對搜索的結果進行分門別類,并可以匯集各大知名搜索引擎的信息資源。目前,典型的聚類搜索引擎的基本工作步驟為:①依據用戶查詢的關鍵字,從一個或多個搜索引擎獲取搜索結果;②對搜索結果進行預處理,過濾掉重復、無效信息;③將文檔中關鍵短語作為特征提取出來生成聚類標簽;④將文檔分配到生成的聚類標簽下;⑤將聚類后的搜索結果進行排序并顯示給用戶。 1.2 國內外聚類搜索引擎的發展現狀 搜索引擎的發展階段總共經歷了三個階段[3],其中第1代搜索引擎主要是基于人工分類的通用搜索;第2代主要依靠機器進行自動爬取和分析,利用鏈接分析技術實現更為準確的搜索,如Google、百度等;第3代搜索引擎更加體現了智能化、互動式和人性化。功能包括自動聚類、去重、用戶習慣記憶等方面,是未來搜索引擎主要的發展方向。 近幾年,國際上對聚類搜索引擎系統的研究日漸火熱,已經出現了一些知名的聚類搜索系統。其中,Scatter/Gather系統[4]是第一個在搜索引擎上使用聚類方法的系統;Vivisimo[5]是一種商業化聚類搜索引擎,符合用戶使用習慣,搜索效率高。基于Java的開源Carrot2聚類搜索引擎[5]可自動的把搜索結果歸類到相應的語義類別中,它的一個亮點是速度和易用性的提高。中文搜索領域,早期比較有實力的聚類搜索引擎有Bbmao,Bbmao搜索系統推出了去重功能,為網民解決了大量閱讀重復信息的煩惱。Bbmao的聚類功能,能夠提高查找信息的效率,它還具有云集各大搜索引擎結果的功能,同時完成海量信息的分門別類。近期出現的baigoogleledu綜合了谷歌、百度兩大搜索引擎。其基本出發點是兩大搜索引擎的搜索結果的很大的差異性。這類系統對搜索結果進行聚類分析,在一定程度上緩解了廣告泛濫的局面,使用戶更便捷地找到需要的信息。 有關國內外聚類搜索引擎的相關技術,主要有聚類分析、聚類算法、中文信息處理等技術。Anton等人[7]致力于把分類體系引入評估體系來評價聚類效果質量的研究。Sudipto Guha等研究人員[8]應用概念關聯代替傳統的計算歐式距離,來衡量數據之間的相似度,從而確定聚類,達到了很好的效果。 國內一些學術組織和團體很早就開始對自動文本分類、聚類領域等相關內容進行研究,從“天網”和“網絡指南針”開始北京大學和清華大學就開始致力于網頁的聚類技術研究。此外,北京科技大學的麻雪云提出了一種基于關鍵名詞短語聚類的中文搜索結果聚類方法[9],利用百度、谷歌、雅虎三大搜索引擎來獲取互聯網信息,對搜索結果進行聚類分析。國防科技大學的肖坤對STC算法和Lingo算法進行了比較,并對STC算法進行了改進,設計實現了一個面向校園網聚類搜索引擎系統[10]。 2 聚類搜索引擎的功能分析 2.1 聚類對象分析 現有聚類搜索引擎的聚類對象主要包括三類數據:商業數據、評價數據、社交數據。 商品數據主要包括對服裝、電器、化妝品等數據信息進行分類整理,例如用戶在淘寶網輸入“牙膏”關鍵字,在網頁上立馬顯示出“功能”、“品牌”、“產地”等分類信息,并按照銷量、價格、信用進行了排序,對商品的聚類分析清晰明確。評價數據主要包括論壇對相關主題的討論信息,博客的交流信息,商業網站對商品的滿意度評價信息等。大連海事大學的魯明羽、姚曉娜等人提出一種基于模糊聚類的網絡論壇熱點話題挖掘算法,通過分析帖子和用戶間的影響力傳遞,來判斷是否為焦點人物和熱門話題[11]。社交數據主要包括社交網絡注冊用戶個人資料信息、用戶關注度信息、用戶之間交互信息等社交數據資源。社交數據隱含了大量可以用于聚類的關聯信息,對實現智能和個性化聚類搜索具有重要意義。此外,聚類對象按數據類型還可以劃分為文本數據、多媒體數據等。 2.2 聚類功能分析 聚類搜索引擎的聚類功能主要有智能聚類、去重、多媒體、覆蓋性等能力。 智能聚類:聚類搜索引擎大多具有這項功能。目前做得最好的如Vivisimo系統,它最大的特色是會對搜索結果自動分類,采用專門開發的啟發式算法來集合或聚類原文文獻。 去重:去重可以取掉大部分的廣告網頁并節省掉用戶的選擇時間,是十分實用的一項聚類功能。國內的比比貓的去重功能非常出色,在用戶獲得多個搜索引擎的搜索結果后,比比貓可以自動為用戶獲取最有搜索結果并取掉重復的信息。 多媒體:除了文本聚類,聚類搜索引擎還關注視頻、音頻等多媒體信息進行聚類的功能,商業化、集成化、多媒體化的氣息更加濃厚。搜狗音樂推出了新版的聚類頁面,可視化強,用戶輸入音樂名稱,將獲得全新的聚類結果,該結果首先按照音頻特征聚類,再按照文本信息聚類,保證搜索界面顯示的音樂相關度最高。 覆蓋性:聚類搜索引擎一般基于一些大型通用搜索引擎的數據資源,這樣能夠保證搜索的結果覆蓋全面,可聚類的對象內容豐富。 2.3 聚類算法分析 聚類搜索引擎的聚類算法主要有層次聚類、樹狀聚類、網狀聚類、圓形聚類。其中Carrot2、Clusty(clusty.com)、iBoogie( iBoogie.com)等系統使用層次聚類的方法,按照來源及站點進行聚類。PinkySeach[12]和Mnemomap(mnemomap.org)系統是使用樹狀結構的聚類算法,將聚類的結果以列表的形式展示出來。UJIKO系統(ujiko.com)是使用圓形結構的聚類算法,它將搜索結果聚類后按照主題自動分類成圖形界面顯示出來。Quintura系統(quintura.com)是使用網狀結構的聚類算法,是通過標簽云的形式將在語義上相關的詞聚類,構成網狀鏈接。 3 典型聚類搜索引擎 3.1 Vivisimo系統 Vivisimo系統[5]的基本步驟包括:首先系統自動地、并行地向多個大型搜索引擎提交查詢請求,然后匯集每個查詢返回的結果,對查詢的結果進行聚類分析,經過去重、合并、分類等步驟后,通過輸出處理顯示給用戶。Vivisimo的聚類對象是從多個搜索引擎返回的搜索結果,主要是文本信息。Vivisimo的聚類功能主要是文本的聚類,通過對文本內容進行搜索和歸類分析,vivisimo的軟件可以使用戶從沒有預先標記或分類的資源中整合、分類內容。Vivisimo采用啟發式算法,借鑒了人工智能的理念,對檢索的結果進行聚類,可以把文本信息自動地分成等級排序的類目,它的每一步都是自動化的,不需要人工干預。 目前Vivisimo的商業應用十分廣泛,它對信息的分類很體貼,具有人性化。其細致的檢索結果顯示方式使它成為了業界的精品,連續多年成為“最佳元搜索引擎”。但是,Vivisimo于沒有自身的數據資源庫,依附于其他大型搜索引擎,獨立性較差,檢索功能有待加強。 3.2 Carrot2系統 Carrot2是基于Java開發的開源聚類搜索系統[6],主要用于對搜索結果進行聚類。與Vivisimo相似,首先也是用戶輸入關鍵字在Bing、baidu、google等知名搜索引擎進行搜索,然后對返回的搜索結果進行聚類,并通過樹形的分類圖進行顯示出來。Carrot2的聚類對象主要是各大搜索引擎返回的搜索結果,其通過文檔聚類平臺workbench,對搜索的數據進行聚類分析,并通過文檔聚類服務器DCS,將聚類結果作為REST服務呈現。最后,Carrot2以WebApp方式將聚類結果作為網絡應用呈現給終端用戶。Carrot2采用的聚類算法主要是Lingo(基于奇異值分解的索引結果聚類)算法和STC(Suffix Tree Clustering)后綴樹聚類算法。 目前Carrot2支持的聚類算法較多,代碼開源可以進行版本的更新和改進。該系統應用廣泛、可移植性較好。但是Carrot2中文分詞效果不好,可視化效果不佳。 4 聚類搜索引擎發展趨勢 文獻[1]通過對大量搜索引擎的評測,發現獨立性差、專用算法欠缺、搜索速度慢等一系列問題,但該文主要對搜索結果的聚類方法進行了評測,對聚類搜索引擎的趨勢的分析也主要側重于聚類方法。本文認為聚類搜索引擎未來將向數據海量化,鏈接社交化,聚類綜合化三個方向發展。 4.1 數據海量化 現階段的聚類搜索由于數據集較為單一,聚類算法過于老舊,造成呈現給用戶的檢索結果數量少,內容貧乏,這樣必然影響聚類搜索的發展壯大。所以未來聚類搜索必然要向數據海量化發展。近期,美國互聯網公司“耶寶”日前推出一種更具人性化的搜索引擎,有別于當今主流搜索引擎網站提供的單維搜索,并非一般的羅列搜索結果,而是通過對搜索的詞條和海量的網頁的內容進行分析,自動對搜索結果進行聚類和分類,為用戶提供豐富而直觀的結果。 4.2 鏈接社交化 在搜索引擎中引入社交元素,由于目前Web社交網絡形成了一個巨大的Deep Web(針對網絡爬蟲而言),而這個數據量對搜索引擎來說是非常大而且有用的,搜索引擎作為用戶獲取信息的主要渠道,勢必需要這些用戶活躍度和新鮮度很高的數據資源。由于社交數據中蘊含著大量數據之間的潛在鏈接,因此基于社交數據進行聚類搜索可望更好滿足用戶的個性化需求。 4.3 聚類綜合化 聚類的多元化、跨領域、綜合化將是新型聚類搜索的重要特點。局限于單個應用領域的聚類搜索已經難以適應需要,跨領域聚類將是未來聚類搜索面臨的主要挑戰。 5 結束語 隨著Web2.0的蓬勃發展,網頁數量成級數增長,為了使互聯網用戶更加方便、快捷的得到需要的信息,聚類搜索代表著一種重要搜索引擎的發展方向。隨著聚類搜索引擎的算法和數據源的逐步完善,聚類搜索引擎技術將得到迅猛發展和更為廣泛的應用。(來源:電腦知識與技術 編選:中國SEO) 參考文獻: [1]蘇建華,張燦,聚類搜索引擎研究[J].新世紀圖書館,2009(6):72-75. [2]蒼宏宇,譚宗穎,聚類搜索引擎發展現狀研究[J],圖書情報工作,2009,53(2):125-127. [3]沈賀丹,潘亞楠,關于搜索引擎的研究綜述[J].計算機技術與發展,2006.16(4):147-152. [4] Banos R,Gil C,Reca J,et,al.Implementation of scatters search for multi-objective optimization:A comparative study.Computational Optimization and Applications,2009,42(3):421-441. [5] Koshman Sherry,Spink Amanda,Jansen Bernard.Web Seaching on the Vivisimo Search Engine[J].Journal of the American Society for Information Science and Technology,2006,57(14):1875-1887. [6] Carrot2 Framework.Carrot2:Design of a Flexible and Efficient Web Information Retrieval Framework[C].Third International Atlantic Web Intelligence Conference(AWIC2005),Lodz,Poland,2005:439-444. [7] Anton V Leouski,W Bruce Crift.An Evalution of Techniques for Clustering Seach Results[J].Computer Science Depart-ment,1996:1-19. [8] Stdipto Guha,Rajeev Rastogi,Kyuseok Shim.ROCK:A Robust Clustering Algorithm for Categorical Attributes[J/OL].[2008-08-12]. [9]麻雪云,基于聚類的元搜索引擎設計和實現[D].北京:北京信息科技大學,2008. [10]肖坤,面向用戶興趣的校園網聚類搜索引擎的研究與實現[D].長沙:國防科技大學,2010. [11]魯明羽,姚曉娜,魏善嶺,基于模糊聚類的網絡論壇熱點話題挖掘[J].大連海事大學學報,2008,34(04):52-58. [12]余晉等.PinkySearch:基于聚類的元搜索引擎[C].NDBC 2009. 本文出自:億恩科技【www.laynepeng.cn】 |