采用融合规则与BERT-FLAT模型对营养健康领域命名实体识别
TP391.1; 人类营养健康命名实体识别旨在检测营养健康文本中的营养实体,是进一步挖掘营养健康信息的关键步骤.虽然深度学习模型广泛应用在人类营养健康命名实体识别中,但没有充分考虑到营养健康文本中含有大量的复杂实体而出现长距离依赖的特点,且未能充分考虑词汇信息和位置信息.针对人类营养健康文本的特点,该研究提出了融合规则与BERT-FLAT(Bidirectional Encoder Representations from Transfromers-Flat Lattice Transformer,转换器的双向编码器表征量-平格变压器)模型的营养健康文本命名实体识别方法,识别了营养健康领域中食...
        Saved in:
      
    
          | Published in | 农业工程学报 Vol. 37; no. 20; pp. 211 - 218 | 
|---|---|
| Main Authors | , | 
| Format | Journal Article | 
| Language | Chinese | 
| Published | 
            食品质量与安全北京实验室,北京 100083%中国农业大学信息与电气工程学院,北京 100083
    
        15.10.2021
     | 
| Subjects | |
| Online Access | Get full text | 
| ISSN | 1002-6819 | 
| DOI | 10.11975/j.issn.1002-6819.2021.20.024 | 
Cover
| Summary: | TP391.1; 人类营养健康命名实体识别旨在检测营养健康文本中的营养实体,是进一步挖掘营养健康信息的关键步骤.虽然深度学习模型广泛应用在人类营养健康命名实体识别中,但没有充分考虑到营养健康文本中含有大量的复杂实体而出现长距离依赖的特点,且未能充分考虑词汇信息和位置信息.针对人类营养健康文本的特点,该研究提出了融合规则与BERT-FLAT(Bidirectional Encoder Representations from Transfromers-Flat Lattice Transformer,转换器的双向编码器表征量-平格变压器)模型的营养健康文本命名实体识别方法,识别了营养健康领域中食物、营养物质、人群、部位、病症和功效作用6类实体.首先通B E RT模型将字符信息和词汇信息进行嵌入以提高模型对实体类别的识别能力,再通过位置编码与词汇边界信息结合的Transformer模型进行编码以提高模型对实体边界的识别效果,利用CRF(Coditional Random Field,条件随机场)获取字符预测序列,最后通过规则对预测序列进行修正.试验结果表明,融合规则与BERT-FLAT模型的人类营养健康领域识别的准确率为95.00%,召回率为88.88%,F1分数为91.81%.研究表明,该方法是一种有效的人类营养健康领域实体识别方法,可以为农业、医疗、食品安全等其他领域复杂命名实体识别提供新思路. | 
|---|---|
| ISSN: | 1002-6819 | 
| DOI: | 10.11975/j.issn.1002-6819.2021.20.024 |