中文全文文件群集索引理論研究--向量空間模型的建構__臺灣人文及社會科學引文索引資料庫

:::

詳目顯示

第 1 筆 / 總合 1 筆

/1頁

論文基本資料
摘要

題名：	中文全文文件群集索引理論研究--向量空間模型的建構
作者：	黃雲龍
作者(外文)：	Huang, Yun-Long
校院名稱：	國立台灣大學
系所名稱：	商學研究所
指導教授：	謝清佳謝清俊
學位類別：	博士
出版日期：	1997
主題關鍵詞：	群集索引；自動索引；資訊檢索；向量空間模型；群集索引模型；奇異值分解；Cluster Indexing；Automatic Indexing；Information Retrieval；Vector Space Model；Cluster Index Model；Singular Value Decomposition
原始連結：	連回原系統網址
相關次數：	被引用次數:期刊(0) 博士論文(0) 專書(0) 專書論文(0) 排除自我引用:0 共同引用:0 點閱:94

由於資訊技術的應用，使得資訊的儲存、呈現、處理與交換的方式發生很
大的變革。特別是文件電子化以後，對於非結構化的全文文件需要新的全
文資料庫技術、方法與模型，以解決全文文件處理、應用與管理問題。當
前商業應用的全文檢索系統仍以字串比對的全文檢視法，配合布林查詢介
面為主流，這種系統過於簡化電子文件檢索系統環境的形式與內容關係。
因此先進的資訊檢索研究都強調內容檢索方式，以提供使用者更精確的檢
索結果。本文基於中文語文的特色，並且結合中文資訊處理應用研究的成
果，在中文自動索引理論研究上，提出以向量空間模型(VSM)為基礎的群
集索引模型(CIM)，運用奇異值分解技術，找出索引詞共同因素，建立一
個具有直交向量空間，又能縮減原始資料空間的群集索引空間。經由實驗
設計分別從檢出率、精確率、索引構面及相關係數界限值等四個角度去綜
合評量CIM索引的效果。另外為了突破傳統VSM在自動索引上的瓶頸，本文
在詮釋索引形式與文件內容關係上，首度將人工索引系統的分類架構引進
於CIM，建立衡量索引詞群集索引形式的方法。以「廣度」衡量索引詞在
群集區域內的分佈資訊量，代表索引詞索引的詳盡性；再以「集中度」衡
量索引詞在所有群集上全域的分佈資訊量，代表索引詞的明確性。根據上
述索引詞在群集內與群集間的資訊量，建立篩選詞彙的標準，選取具有群
集索引價值的索引詞。本文從兒童日報全文語料庫中選取環保新聞(368篇
文件)與醫藥新聞(502篇文件)，分別設計環保語料六個查詢句、醫藥語料
五個查詢句，進行各項實驗。並由台大圖書館學系高年級學生以人工選詞
方式選取環保語料原始詞集2544詞，醫藥語料原始詞集2564詞。最後以人
工進行索引詞的同義詞權威控制，環保語料共有索引詞2299詞，醫藥語料
共有索引詞2369詞。各項選詞結果並經專家審查確認。在各項實驗與研究
控制下，提出以下主要發現：1.CIM最適群集索引構面區間的決策準則：
文件數與群集索引構面之間的比例至少在五∼十倍。2.以IDF加權方式建
立索引詞--文件矩陣，CIM有最佳的索引效能。3.根據索引詞廣度與集中
度的資訊量衡量結果，環保語料篩選詞集1139詞，醫藥語料篩選詞集1149
詞。4.篩選詞集、原始詞集、權威控制詞集交叉分析結果。(1) 醫藥語料
在高界限值(sim=0.5)下，篩選1149詞集的平均精確率60.15%分別略低於
原始2564詞集的63.49%，與權威控制2369詞集的64.78%。(2) 醫藥語料在
低界限值(sim=0.2)下，篩選1149詞集的平均精確率46.65%分別略高於原
始2564詞集的43.82%，與權威控制2369詞集的44.05%。(3) 環保語料在高
界限值(sim=0.5)下，篩選1139詞集的平均精確率40.34%分別略優於原
始2564詞集的35.21%，與權威控制2299詞集的37.57%。(4) 環保語料在高
界限值(sim=0.2)下，篩選1139詞集的平均精確率21.04%分別略優於原
始2564詞集的18.56%，與權威控制2299詞集的19.22%。5.經由上述實驗，
CIM在索引的效果上優於傳統VSM，而且可以改善或者提昇其效能，達到具
有權威控制機制下的索引效果。最後本文建議規劃中文自動索引研究的基
礎環境，建立整合研究系統的基本模組，包括：查詢介面、檢索引擎、自
動索引與相關評量四個部份。然後以中文字或詞彙的索引形式，分別從兩
個不同的途徑著手。並且從相關評量模組開始，建立標準的測試語料庫，
設計足夠代表評量系統效能的查詢句，模擬實際使用者環境下系統效能評
量的新標準，並進一步探索使用者相關回饋的檢索模型，建立中文資訊檢
索研究在國際上的新展望與貢獻。

以文找文

推文
推薦
引用網址
引用嵌入語法
轉寄

top

:::

相關期刊
相關論文
相關專書
相關著作
熱門點閱

1.	利用相關回饋建立概念化的使用者興趣檔以協助使用者進行網頁查詢
2.	網路文件自動分類
3.	中文全文文件群集索引理論研究與實證

無相關博士論文

無相關書籍

無相關著作

1.	唐宋家庭財產繼承之研究
2.	焦竑學術研究
3.	劉逢祿古音學研究
4.	我國臺灣地區公共圖書館讀者服務涉入之研究
5.	我國學術資訊網路使用及資訊倫理教育之研究
6.	民信局中國的民間通訊事業
7.	系統研究法的組織理論之分析

QR Code

臺灣人文及社會科學引文索引資料庫系統

詳目顯示

臺灣人文及社會科學引文索引資料庫