基于Transformer的汉字到盲文端到端自动转换
TP391; 汉字到盲文自动转换是改善我国1700万视障人群生活学习和贯彻落实国家信息无障碍建设的重要问题.现有汉盲转换方法均采用多步转换方法,先对汉字文本进行盲文分词连写,再对汉字进行标调,最后结合分词和标调信息合成盲文文本.该文提出一种基于编码器-解码器模型Transformer的端到端汉盲转换方法,利用汉字-盲文对照语料库训练Transformer模型.基于《人民日报》六个月约1200万字中文语料,该文构建了国家通用盲文、现行盲文、双拼盲文三种对照汉盲语料库.实验结果表明,该文提出的方法可将汉字一步转换为盲文,并在国家通用盲文、现行盲文、双拼盲文分别有80.25%,79.08%和79.2...
Saved in:
Published in | 计算机科学 Vol. 48; no. z2; pp. 136 - 141 |
---|---|
Main Authors | , , , , , |
Format | Journal Article |
Language | Chinese |
Published |
兰州大学信息科学与工程学院 兰州 730000%中国盲文出版社 北京 100142
2021
|
Subjects | |
Online Access | Get full text |
ISSN | 1002-137X |
DOI | 10.11896/jsjkx.210100025 |
Cover
Summary: | TP391; 汉字到盲文自动转换是改善我国1700万视障人群生活学习和贯彻落实国家信息无障碍建设的重要问题.现有汉盲转换方法均采用多步转换方法,先对汉字文本进行盲文分词连写,再对汉字进行标调,最后结合分词和标调信息合成盲文文本.该文提出一种基于编码器-解码器模型Transformer的端到端汉盲转换方法,利用汉字-盲文对照语料库训练Transformer模型.基于《人民日报》六个月约1200万字中文语料,该文构建了国家通用盲文、现行盲文、双拼盲文三种对照汉盲语料库.实验结果表明,该文提出的方法可将汉字一步转换为盲文,并在国家通用盲文、现行盲文、双拼盲文分别有80.25%,79.08%和79.29%的BLEU值.相比现有汉盲转换方法,该方法所需语料库的建设难度较小,且工程复杂度较低. |
---|---|
ISSN: | 1002-137X |
DOI: | 10.11896/jsjkx.210100025 |