:::

詳目顯示

回上一頁
題名:融合表示學習與機器學習的專利科學引文標題自動抽取研究
書刊名:數據分析與知識發現
作者:張金柱胡一鳴
出版日期:2019
卷期:2019(5)
頁次:68-76
主題關鍵詞:專利科學引文元數據抽取機器學習表示學習Scientific references in patentMetadata extractionMachine learningRepresentation learning
原始連結:連回原系統網址new window
相關次數:
  • 被引用次數被引用次數:期刊(0) 博士論文(0) 專書(0) 專書論文(0)
  • 排除自我引用排除自我引用:0
  • 共同引用共同引用:0
  • 點閱點閱:1
【目的】針對專利引文類別繁多的問題,研究自動識別其中專利科學引文這一特定類別的方法,進而準確抽取專利科學引文的標題特征項,支撐后續專利科學引文深度分析與挖掘。【方法】引入表示學習方法 Doc2Vec實現專利科學引文整體的語義向量表示,結合機器學習分類方法實現專利科學引文這一特定類別的識別;在此基礎上,利用表示學習方法實現專利科學引文標題等內容元數據的語義向量表示,結合機器學習分類方法抽取專利科學引文標題。【結果】在基因領域專利的實驗中,專利科學引文的識別精確率達到99.27%,專利科學引文標題抽取精確率達到92.59%,抽取精確率較單純的機器學習方法提高5.96%。【局限】人工標注訓練集較為耗時;對實驗數據格式有一定要求。【結論】本文方法在專利科學引文識別和標題抽取上具有良好效果。
[Objective] This paper aims to automatically identify scientific references in patent(SRP), and then extract titles from SRP to support in-depth data mining. [Methods] Firstly, we used the Doc2Vec method to generate vectors for the patent citations. Then, we identified the SRPs with support vector machine(SVM). Third, we created vectors for the metadata(such as titles) of SRP, and extracted titles with SVM. [Results] We examined the proposed method with patent citations from the genetic field. The accuracy of SRP recognition and titles extraction reached 99.27% and 92.59% respectively. The latter was 5.96% higher than those of the traditional methods. [Limitations] Manually tagging the training set was very time consuming, and there are format requirements for the experimental data.[Conclusions] The proposed method could effectively identify and extract patent citations and titles.
 
 
 
 
第一頁 上一頁 下一頁 最後一頁 top