【目的】識別出科技論文中分布在不同段落、在語義及版面視覺上具有并列關系的文本塊,捕捉并列關系文本特征,為并列關系知識對象識別提供預訓練模型。【方法】以段落為處理單元,在字符向量和詞向量的基礎上附加版面視覺特征,對不同層級具有并列關系的文本進行多維特征表征,利用卷積神經網絡(Convolutional Neural Networks, CNN)模型對標注數據進行文本分類訓練,得到并列關系文本塊識別模型。【結果】在人工標注的科技論文數據集上展開實驗,對并列關系文本塊分類準確率達96%,比基準模型高出約3%,召回率高出約2%。【局限】僅適用于HTML網頁文本數據,對于其他格式的文本數據還有待進一步研究和實驗。【結論】以段落為處理單元,綜合多種特征后利用卷積神經網絡模型能夠高效識別篇章級并列關系文本塊,可以作為并列關系知識對象識別預訓練模型。