基于ECA-Net的双信息流图像字幕生成方法研究
CSTR:
作者:
作者单位:

(1.兰州理工大学 电气工程与信息工程学院,甘肃 兰州 730050;2.甘肃省工业过程先进控制重点实验室,甘肃 兰州 730050;3. 西北民族大学 数学与计算机科学学院,甘肃 兰州 730030 )

作者简介:

刘仲民 (1978-),男,博士,副教授,硕士生导师,主要从事模式识别和图像处理方面的研究 。

通讯作者:

中图分类号:

TP391

基金项目:

国家自然科学基金(62061042)、甘肃省自然科学基金(23JRRA796) 和甘肃省工业过程先进控制重点实验室开放基金(2022KX10) 资助项目


Research on image captioning generation method of double information flow based on ECA-Net
Author:
Affiliation:

(1.College of Electrical and Information Engineering, Lanzhou University of Technology, Lanzhou 730050,China;2.Key Laboratory of Gansu Advanced Control for Industrial Processes, Lanzhou, Gansu 730050,China;3. College of Mathematics and Computer Science, Northwest Minzu University, Lanzhou, Gansu 730030, China)

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对图像字幕生成中由于视觉信息不足使生成的描述语句与图像内容不匹配的问题,提出一种基于高效通道注意力(efficient channel attention network, ECA-Net)的双信息流图像字幕生成方法。首先,该方法将图像分割特征作为另一个视觉信息源,采用迭代独立层归一化(iterative independent layer normalization,IILN) 模块融合分割特征和网格特征,以双信息流网络提取图像特征;其次,在编码器中添加ECA-Net 模块,通过跨通道交互学习图像特征之间的相关性,使预测结果更加关注视觉内容。最后,解码器根据提供的视觉信息和部分生成的字幕预测下一个词组,从而生成准确的字幕。在MSCOCO数据集上进行实验证明,该方法可以增强图像视觉信息之间的依赖性,使生成字幕相关度更高、语法更准确。

    Abstract:

    To address the problem of mismatch between description statements and image content due to insufficient visual information in image captioning generation,an image captioning generation method based on efficient channel attention network (ECA-Net) is proposed.Firstly,the image segmentation feature as an additional source of visual information,and the iterative independent layer normalization (IILN) module is used to fuse the segmentation feature and grid feature.Also,the image feature is extracted by the double information flow network.Secondly,an ECA-Net module is introduced to the encoder facilitates the learning of correlations among image features through cross-channel interaction,so that the prediction results are more focused on visual content.Finally,the decoder predicts the next phrase based on the provided visual information and the partially generated captions,thus generating accurate captions.Experimental results on MSCOCO data demonstrate that the proposed method can enhance the dependency between the visual information of images,and make the subtitles more relevant and more accurate.

    参考文献
    相似文献
    引证文献
引用本文

刘仲民,苏融,胡文瑾.基于ECA-Net的双信息流图像字幕生成方法研究[J].光电子激光,2025,(1):27~35

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2023-06-18
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2024-12-11
  • 出版日期:
文章二维码