融合自注意力机制的跨模态食谱检索方法
TP391.3; 饮食记录是饮食管理的关键环节.为了简化记录过程,研究者提出了基于食物图片的食谱检索技术,通过拍摄的图片检索到对应食谱,并据此生成营养信息,从而提高了记录的便捷性.食谱检索是典型的跨模态检索问题,但与一般问题相比,其主要难点是食谱描述了从原材料到成品的一系列变化过程,而非直接可见的特征,因此模型需要深入理解原材料的处理过程.而当前食谱检索研究工作采用线性方式处理文本,导致其捕捉食谱处理过程中的远距离依赖现象的能力较差.针对这个问题,设计了一种基于自注意力机制的跨模态食谱检索模型.该模型借助Transformer模型中的自注意力机制,捕捉食谱中远距离的依赖关系,同时改进了传统方法...
Saved in:
Published in | 计算机科学与探索 Vol. 14; no. 9; pp. 1471 - 1481 |
---|---|
Main Authors | , , , , |
Format | Journal Article |
Language | Chinese |
Published |
北京大学 计算机科学技术系,北京 100871%高可信软件技术教育部重点实验室,北京 100871
01.09.2020
高可信软件技术教育部重点实验室,北京 100871 北京大学 软件工程国家工程研究中心,北京 100871 |
Subjects | |
Online Access | Get full text |
ISSN | 1673-9418 |
DOI | 10.3778/j.issn.1673-9418.1912016 |
Cover
Summary: | TP391.3; 饮食记录是饮食管理的关键环节.为了简化记录过程,研究者提出了基于食物图片的食谱检索技术,通过拍摄的图片检索到对应食谱,并据此生成营养信息,从而提高了记录的便捷性.食谱检索是典型的跨模态检索问题,但与一般问题相比,其主要难点是食谱描述了从原材料到成品的一系列变化过程,而非直接可见的特征,因此模型需要深入理解原材料的处理过程.而当前食谱检索研究工作采用线性方式处理文本,导致其捕捉食谱处理过程中的远距离依赖现象的能力较差.针对这个问题,设计了一种基于自注意力机制的跨模态食谱检索模型.该模型借助Transformer模型中的自注意力机制,捕捉食谱中远距离的依赖关系,同时改进了传统方法中的注意力机制,可以更好地挖掘食谱中的语义.实验结果表明,该模型在食谱检索任务的召回率上比基线方法提高了22%. |
---|---|
ISSN: | 1673-9418 |
DOI: | 10.3778/j.issn.1673-9418.1912016 |