:::

詳目顯示

回上一頁
題名:中文全文文件群集索引理論研究--向量空間模型的建構
作者:黃雲龍
作者(外文):Huang, Yun-Long
校院名稱:國立台灣大學
系所名稱:商學研究所
指導教授:謝清佳
謝清俊
學位類別:博士
出版日期:1997
主題關鍵詞:群集索引自動索引資訊檢索向量空間模型群集索引模型奇異值分解Cluster IndexingAutomatic IndexingInformation RetrievalVector Space ModelCluster Index ModelSingular Value Decomposition
原始連結:連回原系統網址new window
相關次數:
  • 被引用次數被引用次數:期刊(0) 博士論文(0) 專書(0) 專書論文(0)
  • 排除自我引用排除自我引用:0
  • 共同引用共同引用:0
  • 點閱點閱:94
由於資訊技術的應用,使得資訊的儲存、呈現、處理與交換的方式發生很
大的變革。特別是文件電子化以後,對於非結構化的全文文件需要新的全
文資料庫技術、方法與模型,以解決全文文件處理、應用與管理問題。當
前商業應用的全文檢索系統仍以字串比對的全文檢視法,配合布林查詢介
面為主流,這種系統過於簡化電子文件檢索系統環境的形式與內容關係。
因此先進的資訊檢索研究都強調內容檢索方式,以提供使用者更精確的檢
索結果。本文基於中文語文的特色,並且結合中文資訊處理應用研究的成
果,在中文自動索引理論研究上,提出以向量空間模型(VSM)為基礎的群
集索引模型(CIM),運用奇異值分解技術,找出索引詞共同因素,建立一
個具有直交向量空間,又能縮減原始資料空間的群集索引空間。經由實驗
設計分別從檢出率、精確率、索引構面及相關係數界限值等四個角度去綜
合評量CIM索引的效果。另外為了突破傳統VSM在自動索引上的瓶頸,本文
在詮釋索引形式與文件內容關係上,首度將人工索引系統的分類架構引進
於CIM,建立衡量索引詞群集索引形式的方法。以「廣度」衡量索引詞在
群集區域內的分佈資訊量,代表索引詞索引的詳盡性;再以「集中度」衡
量索引詞在所有群集上全域的分佈資訊量,代表索引詞的明確性。根據上
述索引詞在群集內與群集間的資訊量,建立篩選詞彙的標準,選取具有群
集索引價值的索引詞。本文從兒童日報全文語料庫中選取環保新聞(368篇
文件)與醫藥新聞(502篇文件),分別設計環保語料六個查詢句、醫藥語料
五個查詢句,進行各項實驗。並由台大圖書館學系高年級學生以人工選詞
方式選取環保語料原始詞集2544詞,醫藥語料原始詞集2564詞。最後以人
工進行索引詞的同義詞權威控制,環保語料共有索引詞2299詞,醫藥語料
共有索引詞2369詞。各項選詞結果並經專家審查確認。在各項實驗與研究
控制下,提出以下主要發現:1.CIM最適群集索引構面區間的決策準則:
文件數與群集索引構面之間的比例至少在五∼十倍。2.以IDF加權方式建
立索引詞--文件矩陣,CIM有最佳的索引效能。3.根據索引詞廣度與集中
度的資訊量衡量結果,環保語料篩選詞集1139詞,醫藥語料篩選詞集1149
詞。4.篩選詞集、原始詞集、權威控制詞集交叉分析結果。(1) 醫藥語料
在高界限值(sim=0.5)下,篩選1149詞集的平均精確率60.15%分別略低於
原始2564詞集的63.49%,與權威控制2369詞集的64.78%。(2) 醫藥語料在
低界限值(sim=0.2)下,篩選1149詞集的平均精確率46.65%分別略高於原
始2564詞集的43.82%,與權威控制2369詞集的44.05%。(3) 環保語料在高
界限值(sim=0.5)下,篩選1139詞集的平均精確率40.34%分別略優於原
始2564詞集的35.21%,與權威控制2299詞集的37.57%。(4) 環保語料在高
界限值(sim=0.2)下,篩選1139詞集的平均精確率21.04%分別略優於原
始2564詞集的18.56%,與權威控制2299詞集的19.22%。5.經由上述實驗,
CIM在索引的效果上優於傳統VSM,而且可以改善或者提昇其效能,達到具
有權威控制機制下的索引效果。最後本文建議規劃中文自動索引研究的基
礎環境,建立整合研究系統的基本模組,包括:查詢介面、檢索引擎、自
動索引與相關評量四個部份。然後以中文字或詞彙的索引形式,分別從兩
個不同的途徑著手。並且從相關評量模組開始,建立標準的測試語料庫,
設計足夠代表評量系統效能的查詢句,模擬實際使用者環境下系統效能評
量的新標準,並進一步探索使用者相關回饋的檢索模型,建立中文資訊檢
索研究在國際上的新展望與貢獻。
 
 
 
 
第一頁 上一頁 下一頁 最後一頁 top
QR Code
QRCODE