【目的】以深度學習語言表征模型學習論文句子表達,以此為基礎構建論文語步分類模型,提高分類效果。【方法】采用基于深度學習預訓練語言表征模型BERT,結合句子文中位置改進模型輸入,以標注數據集進行遷移學習,獲得句子級的嵌入表達,并以此輸入神經網絡分類器訓練分類模型,實現論文語步分類。【結果】基于公開數據集的實驗結果表明,11類別分類任務中,總體準確率提高了29.7%,達到81.3%;在7類別核心語步分類任務中,準確率達到85.5%。【局限】受限于實驗環境,所提改進輸入模型的預訓練參數來源于原始的模型結構,遷移學習的參數對于新模型輸入的適用程度可進一步探索。【結論】該方法較傳統的"特征構建+機器學習"分類器方法效果有大幅提高,較原始BERT模型亦有一定提高,且無須人工構建特征,模型不局限于特定語言,可應用于中文學術論文的語步分類任務,具有較大的實際應用潛力。