融合自注意力机制的跨模态食谱检索方法

TP391.3; 饮食记录是饮食管理的关键环节.为了简化记录过程,研究者提出了基于食物图片的食谱检索技术,通过拍摄的图片检索到对应食谱,并据此生成营养信息,从而提高了记录的便捷性.食谱检索是典型的跨模态检索问题,但与一般问题相比,其主要难点是食谱描述了从原材料到成品的一系列变化过程,而非直接可见的特征,因此模型需要深入理解原材料的处理过程.而当前食谱检索研究工作采用线性方式处理文本,导致其捕捉食谱处理过程中的远距离依赖现象的能力较差.针对这个问题,设计了一种基于自注意力机制的跨模态食谱检索模型.该模型借助Transformer模型中的自注意力机制,捕捉食谱中远距离的依赖关系,同时改进了传统方法...

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 14; no. 9; pp. 1471 - 1481
Main Authors 林阳, 初旭, 王亚沙, 毛维嘉, 赵俊峰
Format Journal Article
LanguageChinese
Published 北京大学 计算机科学技术系,北京 100871%高可信软件技术教育部重点实验室,北京 100871 01.09.2020
高可信软件技术教育部重点实验室,北京 100871
北京大学 软件工程国家工程研究中心,北京 100871
Subjects
Online AccessGet full text
ISSN1673-9418
DOI10.3778/j.issn.1673-9418.1912016

Cover

More Information
Summary:TP391.3; 饮食记录是饮食管理的关键环节.为了简化记录过程,研究者提出了基于食物图片的食谱检索技术,通过拍摄的图片检索到对应食谱,并据此生成营养信息,从而提高了记录的便捷性.食谱检索是典型的跨模态检索问题,但与一般问题相比,其主要难点是食谱描述了从原材料到成品的一系列变化过程,而非直接可见的特征,因此模型需要深入理解原材料的处理过程.而当前食谱检索研究工作采用线性方式处理文本,导致其捕捉食谱处理过程中的远距离依赖现象的能力较差.针对这个问题,设计了一种基于自注意力机制的跨模态食谱检索模型.该模型借助Transformer模型中的自注意力机制,捕捉食谱中远距离的依赖关系,同时改进了传统方法中的注意力机制,可以更好地挖掘食谱中的语义.实验结果表明,该模型在食谱检索任务的召回率上比基线方法提高了22%.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.1912016