:::

詳目顯示

回上一頁
題名:分類不一致對文件自動分類效果的影響
書刊名:大學圖書館
作者:曾元顯 引用關係
作者(外文):Tseng, Yuen-hsien
出版日期:2005
卷期:9:1
頁次:頁2-19
主題關鍵詞:文件分類一致性分類測試集主題分析複本偵測Document classificationConsistencyTest collection for categorizationSubject analysisDuplicate detection
原始連結:連回原系統網址new window
相關次數:
  • 被引用次數被引用次數:期刊(1) 博士論文(0) 專書(0) 專書論文(0)
  • 排除自我引用排除自我引用:0
  • 共同引用共同引用:0
  • 點閱點閱:16
本文探討分類不一致對自動分類成效的影響。經由近似文件的自動偵測,以及兩種分類方法針對兩個測試文件集做的比較實驗,本文發現:訓練資料的分類不一致性,即便高達34%,幾乎也不會的分類器的成效。此項發現,其重要的意涵是,即便過去的研究使用了一致性不高的測試集做實驗,其結論仍舊是有效的。當然,分類不一致性高的資料,拿來訓練後,不管分類器好壞,其得到的分類成效都是比較低的。除了以上發現外,本文也介紹了一套中文分類測試集,免費提供各界研究使用。另外,作者也提出了一套偵測複本或相似文件的可靠方法,與過去的方法比較,此方法可以測過去方法所無法偵測到的相似文件。
This article discusses the effect of inconsistency in training data on the performance of text classifiers. Our experiments show that the inconsistency, even reaching a level as high as 34%, hardly affects the effectiveness of the classifiers. Better classifiers perform better independent of duplicates and label inconsistency. The implication is that past experiments (especially on the Reuters-21578 collection) remain valid. In the experiment process, the author proposes a duplicate detection technique that is far effective than previous ones. A new Chinese test collection for text categorization is also introduced for general free download.
 
 
 
 
第一頁 上一頁 下一頁 最後一頁 top
:::
無相關博士論文
 
無相關書籍
 
無相關著作
 
無相關點閱
 
QR Code
QRCODE