成人免费看黄网站无遮挡,caowo999,se94se欧美综合色,a级精品九九九大片免费看,欧美首页,波多野结衣一二三级,日韩亚洲欧美综合

Web集成信息檢索在數字圖書(shū)館中的應用研究論文

時(shí)間:2021-04-14 16:27:52 論文 我要投稿

Web集成信息檢索在數字圖書(shū)館中的應用研究論文

  摘要:本文針對數字圖書(shū)館領(lǐng)域的特點(diǎn),提出了一種實(shí)現數字圖書(shū)館Web集成信息檢索及知識庫的建立管理機制,以RDF作為信息和知識的表示模型,采用中介器和包裝器框架來(lái)實(shí)現對異構數據源的集成信息檢索,并在此基礎上建立基于RDF的知識庫,實(shí)現全局查詢(xún),在知識服務(wù)方面做了初步的實(shí)現。最后,本文介紹了基于該機制實(shí)現的一個(gè)原型系統,并以此原型系統為例,分析了系統性能。

Web集成信息檢索在數字圖書(shū)館中的應用研究論文

  關(guān)鍵詞:數字圖書(shū)館;Web集成信息檢索;RDF;說(shuō)明式查詢(xún)語(yǔ)言

  0引言

  數字圖書(shū)館是海量電子資源的集合,它所提供的功能涵蓋并遠遠超過(guò)了傳統的數據庫、信息檢索系統。數字圖書(shū)館已經(jīng)成為世界范圍內、日益重要的基于Web的應用框架體系。其基本目的是實(shí)現信息的集成共享,給用戶(hù)提供統一資源查詢(xún)服務(wù),保障數字資源的最大可用性、系統之間的互操作性和集成性。

  但是,如果數字圖書(shū)館像現有的Web一樣僅僅提供簡(jiǎn)單的信息瀏覽功能,則同樣會(huì )讓用戶(hù)陷入“信息過(guò)載”的困境,不能共享經(jīng)驗知識,無(wú)法滿(mǎn)足用戶(hù)對信息、知識的需求。因此,需要針對數字圖書(shū)館異構信息源的特點(diǎn),采取一種適用的集成信息檢索框架,同時(shí)要求系統能夠積累交互運行中的知識,建立知識庫,從而給用戶(hù)提供智能的、主動(dòng)的、動(dòng)態(tài)的知識服務(wù)。

  1RDF查詢(xún)語(yǔ)言——RQuery

  RDF查詢(xún)語(yǔ)言RQuery與XML相比,RDF支持語(yǔ)義信息,然后,XML的設計動(dòng)機是關(guān)心文檔的結構,目的在于提供多元的文檔表示結構,關(guān)注的焦點(diǎn)不是文檔中數據所代表的語(yǔ)義信息。通過(guò)比較得知,RDF查詢(xún)語(yǔ)言可以根據實(shí)際需要,使用多元的機制,同時(shí)可以定制應用領(lǐng)域內資源、語(yǔ)義信息、知識的表達規則。因此,采用RDF查詢(xún)語(yǔ)言作為信息表示標準,更方便實(shí)現數字圖書(shū)館領(lǐng)域異構、半結構化數據源IIR的語(yǔ)義相互操作。

  RQuery的作用有兩個(gè),實(shí)現對RDF數據和RDFS的查詢(xún),為了給用戶(hù)提供超出普通信息查詢(xún)更多的知識,系統將上述查詢(xún)方法結合起來(lái)。

  設計的RQuery解析器是一個(gè)簡(jiǎn)單的語(yǔ)法分析器,針對RQuery的上下文無(wú)關(guān)文法的特點(diǎn),采用了自上而下的語(yǔ)法分析方法。顧名思義,自上而下就是從文法的開(kāi)始符號出發(fā),向下推導,推出句子。其主旨是:對任何輸入串,試圖用一切可能的辦法,從文法開(kāi)始符號(根節點(diǎn))出發(fā),為輸入串獲取確定的最左推導。

  提出的RDF查詢(xún)語(yǔ)言RQuery,是一種融合了謂詞邏輯的說(shuō)明式查詢(xún)語(yǔ)言,它的設計基于數字圖書(shū)館IIR需求,與其它RDF查詢(xún)語(yǔ)言相比,具有如下特點(diǎn):支持語(yǔ)義映射、可邏輯解析、模式查詢(xún)和數據查詢(xún)相融合。

  2數字圖書(shū)館集成信息檢索框架

  基于中介器,包裝器的數字圖書(shū)館集成信息檢索(DLIIR)系統結構如圖1所示。系統采用RDF作為中間信息表示規范:即系統各組件間交換的數據皆為符合RDF規范和RDFS定義的信息。因此組件之間以計算機可理解的語(yǔ)義信息進(jìn)行通訊,提高了處理信息的效率和準確度,適合海量數據的查詢(xún)。

  DLIIR系統包含用戶(hù)接口和中介器2個(gè)模塊:包裝器生成組件(WrapperDispatcher,WD):包裝器(Wrapper);知識獲取器(KnowledgeAcquireAgent,KAA):知識庫搜索器(KBSearchAgent,KBSA)。它們彼此通信,相互協(xié)作,共同完成檢索功能。同時(shí),在DLIIR系統中增加了RDF知識庫。RDF知識庫包含一個(gè)知識獲。↘AA)組件,將來(lái)自中介器的RDF文檔轉換成RDF知識庫中的記錄。

  3組件間通訊規則

  DLIIR系統包含若干個(gè)共同協(xié)作、彼此獨立的單元模塊,這樣的目的在于增加系統的可擴展性。為了進(jìn)一步實(shí)現組件之間的通訊和數據交換,提高系統性能、查詢(xún)準確率以及工作效率。整個(gè)系統的數據流如圖2所示。

  采用RDF作為統一的數據格式,完成彼此的數據交換和通信,協(xié)同工作,從而實(shí)現整個(gè)系統的功能,為用戶(hù)提供查詢(xún)服務(wù)。

  4用戶(hù)接口A(yíng)gent

  用戶(hù)接口A(yíng)gent的主要功能是協(xié)助用戶(hù)明確、細化查詢(xún)請求。同時(shí),將MA返回的查詢(xún)結果以友好、清晰的格式顯示給用戶(hù)。

  UIA的功能包括:①協(xié)助用戶(hù)明確、細化查詢(xún)請求,將查詢(xún)請求提交給MA;②接收MA返回的查詢(xún)結果,以普通HTML頁(yè)面形式將結果顯示給用戶(hù);③為用戶(hù)提供查詢(xún)RDF知識庫的導航服務(wù)。UIA主要和MA進(jìn)行通信,完成和用戶(hù)交互的功能,這就是主體和其它主體協(xié)作共同實(shí)現系統功能的過(guò)程。從主體的運行周期來(lái)看,UIA的狀態(tài)周期如圖3所示。

  DLIIR系統中,主體之間的通信數據均以RDF表示,MA接收到該消息之后,把該查詢(xún)請求轉換成RQuel查詢(xún)語(yǔ)句。DLIIR提供給用戶(hù)基于Web的查詢(xún)界面,當用戶(hù)提交查詢(xún)請求時(shí),激活UIA,開(kāi)始響應用戶(hù)的請求。DLIIR給用戶(hù)提供了兩種查詢(xún)方式:基于關(guān)鍵詞的查詢(xún)和基于語(yǔ)義的查詢(xún);谡Z(yǔ)義的查詢(xún)僅僅限于對RDF知識庫進(jìn)行查詢(xún),由于知識庫中存放的是經(jīng)過(guò)處理的、以RDF格式表示的知識,它們之間存在可處理的語(yǔ)義關(guān)聯(lián),可以根據語(yǔ)義聯(lián)系查找用戶(hù)所需要的信息。

  5中介器的實(shí)現機制

  中介器依靠包裝器完成信息集成。在DLIIR系統中,中介器(MediatorAgent,MA)需要和其它五種組件通信,協(xié)調各個(gè)組件彼此協(xié)作,共同完成查詢(xún)任務(wù)。從MA的內部結果來(lái)看,MA就是一個(gè)查詢(xún)映射、結果集成的模塊。

  DLIIR系統中,所有組件之間傳遞的信息均以RDF格式表示,采用提出的RQuery來(lái)實(shí)現對這些數據的查詢(xún)。在MA中,對查詢(xún)請求的轉換,其實(shí)質(zhì)就是將RDF格式描述的查詢(xún)請求,轉換成RQuery語(yǔ)句。

  為了更清楚地給用戶(hù)提供查詢(xún)結果,往往需要HTML文檔具有一定的格式,如不同數據以不同顏色顯示,采用表格、鏈接給用戶(hù)提供更友好的界面等。此外,考慮到系統的靈活性,便于將來(lái)修改結果顯示的形式,在設立了一個(gè)系統文件——顯示模式(DisplaySchema)文檔。MA在進(jìn)行查詢(xún)結果到轉換時(shí),根據提前定義的顯示模式,將RDF文檔轉換成具有一定格式的`HTML文檔,然后提交給UIA,以供在用戶(hù)端的Web瀏覽器上顯示。

  6包裝器自動(dòng)構造及知識庫框架

  包裝器(Wrapper)具體工作流程如下:首先該Wrapper將全局查詢(xún)請求轉換成對該數據源進(jìn)行檢索的命令格式,按照接口協(xié)議和數據源通信,獲得檢索結果。然后該包裝器將結果遵循全局RDFSchema構造成RDF文檔,返回給MA。完成此次查詢(xún)任務(wù)后,Wrapper進(jìn)入空閑狀態(tài),等待下次檢索任務(wù)。

  DLIIR中的RDF知識庫以關(guān)系數據庫形式存儲的知識記錄,采用兩個(gè)組件實(shí)現對關(guān)系數據庫的操作:知識獲取器和知識庫搜索器。圖4給出了RDF知識庫的框架結構。

  以RDF圖模型表示的知識按照類(lèi)和屬性的關(guān)系,以關(guān)系型數據庫格式存儲在MicrosonSQLServer數據庫中。因此,KAA和KBSA組件需要更新、訪(fǎng)問(wèn)關(guān)系數據庫,實(shí)現對知識庫的維護和查詢(xún)。這個(gè)過(guò)程涉及到RDF的解析與RDF圖的恢復。

  7性能評估

  傳統的應用程序往往由程序員手工為每個(gè)信息源編制包裝器代碼,采用包裝器自動(dòng)生成機制避免了程序員手工編寫(xiě)代碼。傳統方式中手工開(kāi)發(fā)包裝器代碼耗費的開(kāi)發(fā)代價(jià)最大,而DLIIR中建立數據源接口描述文檔的開(kāi)發(fā)代價(jià)遠遠小于它。

  DLIIR系統在實(shí)現對異構數據源檢索的基礎上,同時(shí)從檢索結果中獲取知識,構造了以RDF進(jìn)行知識表示的知識庫。利用本文提出的RQuery語(yǔ)言對知識庫進(jìn)行檢索。因此,衡量DLIIR系統的知識庫檢索性能(P-RKBIR)也就是衡量RQuery語(yǔ)言的檢索性能。采用知識庫檢索時(shí)間作為P_RKBIR的衡量標準。

  在數據量很小時(shí)(10萬(wàn)條記錄以下),數據量的變化對查詢(xún)時(shí)間的影Ⅱ向無(wú)法衡量出來(lái),查詢(xún)時(shí)間相等。在數據量在百萬(wàn)級別以上時(shí),才體現出查詢(xún)時(shí)間隨著(zhù)數據量的增大而增加的趨勢。此外,查詢(xún)時(shí)間與記錄數是線(xiàn)性關(guān)系的。

  基于結果,DLIIR系統符合設計要求,滿(mǎn)足了對數字圖書(shū)館領(lǐng)域異構數據源集成檢索的需要,而系統的RDF知識庫通過(guò)設計的專(zhuān)用查詢(xún)語(yǔ)言RQuery進(jìn)行檢索時(shí)性能良好。

  8結論

  數字圖書(shū)館已經(jīng)成為國家信息化水平的標志,是社會(huì )信息知識共享的框架平臺。因此,實(shí)現對該領(lǐng)域內異構信息源的互操作,給用戶(hù)提供智能的、主動(dòng)的知識服務(wù)是數字圖書(shū)館的發(fā)展方向。本文提出了一種實(shí)現異構信息源集成信息檢索的互操作框架,并對知識庫的建立和檢索進(jìn)行了初步研究。

【W(wǎng)eb集成信息檢索在數字圖書(shū)館中的應用研究論文】相關(guān)文章:

信息檢索課程論文04-11

信息檢索與應用論文04-11

信息檢索的方式論文04-11

信息檢索技術(shù)論文04-11

基于數據挖掘的數字圖書(shū)館檢索技術(shù)研究論文11-06

關(guān)于網(wǎng)絡(luò )信息檢索論文04-11

數字圖書(shū)館中大數據存儲的應用研究論文10-26

數字圖書(shū)館的信息營(yíng)銷(xiāo)特征綜述論文11-06

高校圖書(shū)館信息檢索課程教學(xué)的改革02-26