一种作文离题检测方法

本公开实施例涉及一种作文离题检测方法,其包括:对作文集进行主题模型训练,得到作文的Biterm-LDA主题模型,并对文档集进行Doc2vec模型训练,得到Doc2vec文档向量模型;将Biterm-LDA主题模型与Doc2vec文档向量模型的文本表示进行组合,得到组合特征;对作文的组合特征基于孪生网络的多层感知机进行降维和特征优化;对降维和特征优化后的话题作文,分为切题作文和离题作文,对切题作文中的一部分构建话题类中心,并根据话题类中心对切题作文中的剩余部分和离题作文分别计算,得到针对同一话题的一组阈值;根据一组阈值利用ROC曲线进行筛选,得到最佳阈值。本公开能为不同话题作文动态计算最佳阈值。...

Full description

Saved in:
Bibliographic Details
Format Patent
LanguageChinese
Published 23.06.2020
Subjects
Online AccessGet full text

Cover

More Information
Summary:本公开实施例涉及一种作文离题检测方法,其包括:对作文集进行主题模型训练,得到作文的Biterm-LDA主题模型,并对文档集进行Doc2vec模型训练,得到Doc2vec文档向量模型;将Biterm-LDA主题模型与Doc2vec文档向量模型的文本表示进行组合,得到组合特征;对作文的组合特征基于孪生网络的多层感知机进行降维和特征优化;对降维和特征优化后的话题作文,分为切题作文和离题作文,对切题作文中的一部分构建话题类中心,并根据话题类中心对切题作文中的剩余部分和离题作文分别计算,得到针对同一话题的一组阈值;根据一组阈值利用ROC曲线进行筛选,得到最佳阈值。本公开能为不同话题作文动态计算最佳阈值。 A written composition off-topic detection method, comprising: performing subject model training on a written composition set to obtain a written composition Biterm-LDA subject model, and performing Doc2vec model training on a document set to obtain a Doc2vec document vector model (S110); combining the text representation of the Doc2vec document vector model and the Biterm-LDA subject model to obtain combined features (S120); on the basis of a twin network multi-layer perceptron, performing dimensionality reduction and feature optimisation of the written composition combined features (S130); dividing topic written compositions after dimensionality reduction and feature optimisation into on-topic written composition
Bibliography:Application Number: CN201910538980