資料載入處理中...
臺灣人文及社會科學引文索引資料庫系統
:::
網站導覽
國圖首頁
聯絡我們
操作說明
English
行動版
(3.147.63.208)
登入
字型:
**字體大小變更功能,需開啟瀏覽器的JAVASCRIPT,如您的瀏覽器不支援,
IE6請利用鍵盤按住ALT鍵 + V → X → (G)最大(L)較大(M)中(S)較小(A)小,來選擇適合您的文字大小,
如為IE7以上、Firefoxy或Chrome瀏覽器則可利用鍵盤 Ctrl + (+)放大 (-)縮小來改變字型大小。
來源文獻查詢
引文查詢
瀏覽查詢
作者權威檔
引用/點閱統計
我的研究室
資料庫說明
相關網站
來源文獻查詢
/
簡易查詢
/
查詢結果列表
/
詳目列表
:::
詳目顯示
第 1 筆 / 總合 1 筆
/1
頁
來源文獻資料
摘要
外文摘要
引文資料
題名:
一種基於語義組塊特徵的改進Cosine文本相似度計算方法
書刊名:
數據分析與知識發現
作者:
白如江
/
冷伏海
/
廖君華
出版日期:
2017
卷期:
2017(6)
頁次:
56-64
主題關鍵詞:
文本相似度
;
語義組塊
;
向量空間模型
;
本體
;
Text similarity
;
Semantic chunks
;
Vector space model
;
Ontology
原始連結:
連回原系統網址
相關次數:
被引用次數:期刊(0) 博士論文(0) 專書(0) 專書論文(0)
排除自我引用:0
共同引用:0
點閱:2
【目的】利用文本語義組塊特征提升Cosine文本相似度計算性能。【方法】獲取NSF資助的關于碳納米管研究領域的項目數據,進行詞干還原、詞性標注等預處理;利用條件隨機場模型實現文本內容的語義組塊標注;在此基礎上實現基于語義組塊特征的改進Cosine文本相似度計算,并與未標注的數據進行相似度計算比較,分析實驗結果。【結果】實驗證明基于語義組塊特征的改進Cosine相似度計算結果比原始文本Cosine相似度計算結果相似度均有不同程度的提升,在實驗數據中最高的相似度提升了26%。【局限】依賴于語義組塊標注性能。【結論】本文方法能有效提升文本間語義相似度,降低向量空間模型維度,提高計算效率,并且具有良好的泛化能力和魯棒性。
以文找文
[Objective] This paper aims to improve the performance of Cosine text similarity computing method with the help of text semantic chunk feature. [Methods] First, we retrieved the project data of carbon nanotubes studies, which were pre-processed with stemming and POS techniques. Then, we identified the semantic chunk of text contents with the conditional random field model. Third, we calculated the similarity of texts based on semantic chunk feature. Finally, we compared our results with those generated by the unlabeled data. [Results] The proposed method improved the performance of Cosine similarity calculation by up to 26%. [Limitations] Our study relies on semantic chunks to annotate the computing performance. [Conclusions] The proposed method could effectively identify similar texts, and reduce the dimensions of vector space model, which improves the computing efficiency. The new method is robust and could be transferred to other fields.
以文找文
期刊論文
1.
Landauer, T. K.、Foltz, P. W.、Laham, D.(1998)。An Introduction to Latent Semantic Analysis。Discourse Processes,25(2/3),259-284。
2.
Salton, G.、Wong, A.、Yang, C. S.(1975)。A Vector Space Model for Automatic Indexing。Communications of the ACM,18(11),613-620。
3.
Islam, A.、Inkpen, D.(2008)。Semantic text similarity using corpus-based word similarity and string similarity。ACM Transactions on Knowledge Discovery from Data,2(2),1-25。
4.
Tversky, Amos(1977)。Features of similarity。Psychological Review,84(4),327-352。
5.
Lund, K.、Burgess, C.(1996)。Producing high-dimensional semantic spaces from lexical co-occurrence。Behavior Research Methods, Instruments, & Computers,28(2),203-208。
6.
Wang, J. Z.、Du, Z.、Payattakool, R.、Yu, P. S.、Chen, C. F.(2007)。A new method to measure the semantic similarity of GO terms。Bioinformatics,23(10),1274-1281。
7.
劉宏哲、須德(2012)。基於本體的語義相似度和相關度計算研究綜述。計算機科學,39(2),8-13。
延伸查詢
8.
黃承慧、印鑒、侯昉(2011)。一種結合詞項語義信息和TF-IDF方法的文本相似度量方法。計算機學報,34(5),856-864。
延伸查詢
9.
Ponzetto, P. S.、Strube, M.(2007)。Knowledge Derived from Wikipedia for Computing Semantic Relatedness。Journal of Artificial Intelligence Research,30(1),181-212。
10.
Sébastien, H.、David, S.、Sylvie, R.(2014)。A Framework for Unifying Ontology-based Semantic Similarity Measures: A Study in the Biomedical Domain。Journal of Biomedical Informatics,48(2),38-53。
11.
Rada, R.、Mili, H.、Bicknell, E.(1989)。Development and Application of a Metric on Semantic Nets。IEEE Transactions on Systems, Man, and Cybernetics,19(1),17-30。
12.
Othman, R. M.、Deris, S.、Illias, R. M.(2008)。A Genetic Similarity Algorithm for Searching the Gene Ontology Terms and Annotating Anonymous Protein Sequences。Journal of Biomed Information,41(1),65-81。
13.
李文清、孫新、張常有(2012)。一種本體概念的語義相似度計算方法。自動化學報,38(2),229-235。
延伸查詢
會議論文
1.
Metzler, D.、Bernstein, Y.、Croft, W. B.(2005)。Similarity Measures for Tracking Information Flow。The 14th ACM International Conference on Information and Knowledge Management,517-524。
2.
Banerjee, S.、Pedersen, T.(2003)。Extended Gloss Overlaps as a Measure of Semantic Relatedness。The 17th International Joint Conference on Artificial Intelligence。New York:ACM Press。805-810。
3.
Pekar, V.、Staab, S.(2002)。Taxonomy Learning: Factoring the Structure of a Taxonomy into a Semantic Classification Decision。The 19th International Conference on Computational Linguistics, Taipei, Taiwan, China。New York:ACM Press。1-7。
4.
Wu, Zhibiao、Palmer, Martha(1994)。Verb Semantics and Lexical Selection。The 32nd Annual Meeting on Association for Computational Linguistics。New York:ACM Press。133-138。
5.
Allan, J.、Wade, C.、Bolivar, A.(2003)。Retrieval and Novelty Detection at the Sentence Level。The 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval。Toronto, Ontario。
圖書
1.
劉宏哲(2012)。文本語義相似度計算方法研究。北京:北京交通大學。
延伸查詢
2.
白如江(2015)。基於語義計算的科學研究前沿識別研究。北京:中國科學院大學。
延伸查詢
3.
孫建軍、成穎(2004)。信息檢索技術。北京:科學出版社。
延伸查詢
4.
Couto, F. M.、Silva, M.、Coutinho, P. M.(2003)。Implementation of a Functional Semantic Similarity Measure Between Gene-Products。Lisbon:University of Lisbon。
其他
1.
Jacob, B.,Benjamin, C.。Calculating the Jaccard Similarity Coefficient with Map Reduce for Entity Pairs in Wikipedia,http://www.infosci.cornell.edu/weblab/papers/Bank2008.pdf。
圖書論文
1.
Leacock, C.、Chodorow, M.(1998)。Combining local context and WordNet similarity for word sense identification。WordNet: An electronic lexical database。Cambridge, Massachusetts:MIT Press。
推文
當script無法執行時可按︰
推文
推薦
當script無法執行時可按︰
推薦
引用網址
當script無法執行時可按︰
引用網址
引用嵌入語法
當script無法執行時可按︰
引用嵌入語法
轉寄
當script無法執行時可按︰
轉寄
top
:::
相關期刊
相關論文
相關專書
相關著作
熱門點閱
1.
文本相似度計算方法研究綜述
無相關博士論文
無相關書籍
無相關著作
1.
熱點分析類文章的文獻計量分析--以詞頻分析方法為例
2.
從新型智庫功能看地方科技情報機構主要問題及轉型途徑
3.
澳大利亞的信息治理能力構建研究與啟示
4.
“互聯網+”背景下高校信息檢索課程信息化教學平臺建設研究
5.
基於關聯規則的政務微博公眾評論觀點挖掘
6.
企業網絡輿情傳播的系統動力學仿真研究--基於傳播主體特性
7.
“互聯網+”環境下美國iSchool院校科研項目發展動態研究
8.
基於情感維度的大數據網絡輿情情感傾向性分析研究--以“南昌大學自主保潔”微博輿情事件為例
9.
移動數字閱讀APP用戶退出意願的影響因素研究
10.
基於改進K-Means算法的企業競爭情報研究--以社會網絡分析為方法
11.
“大眾創業、萬眾創新”下產業信息服務模式研究
12.
社會資本視角下虛擬社區知識分享對用戶黏性的影響機制研究
13.
基於大數據多Agent的網絡英語自主學習平臺的有效機制研究
14.
英國政府開放數據的“國家信息基礎設施”建設及啟示
15.
基於CiteSpace的國內網絡輿情研究知識圖譜分析
QR Code