博文

面向精准价格牌识别的多任务循环神经网络

已有 1869 次阅读 2022-6-24 14:54 |系统分类:博客资讯

引用本文

牟永强, 范宝杰, 孙超, 严蕤, 郭怡适. 面向精准价格牌识别的多任务循环神经网络. 自动化学报, 2022, 48(2): 608−614 doi: 10.16383/j.aas.c190633

Mou Yong-Qiang, Fan Bao-Jie, Sun Chao, Yan Rui, Guo Yi-Shi. Towards accurate price tag recognition algorithm with multi-task RNN. Acta Automatica Sinica, 2022, 48(2): 608−614 doi: 10.16383/j.aas.c190633

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190633

关键词

卷积神经网络, 循环神经网络, 文本识别, 多任务学习, 价格牌识别

摘要

为了促进智能新零售在线下业务场景的发展, 提高作为销售关键信息价格牌的识别精度. 本文对价格牌识别问题进行研究, 有效地提高了价格牌的识别精度, 并解决小数点定位不准确的难题. 通过深度卷积神经网络提取价格牌的深度语义表达特征, 将提取到的特征图送入多任务循环网络层进行编码, 然后根据解码网络设计的注意力机制解码出价格数字, 最后将多个分支的结果整合并输出完整价格. 本文所提出的方法能够非常有效地提高线下零售场景价格牌的识别精度, 并解决了一些领域难题如小数点的定位问题, 此外, 为了验证本文方法的普适性, 在其他场景数据集上进行了对比实验, 相关结果也验证了本文方法的有效性.

文章导读

传统零售业抑或是近年来兴起的快消新零售, 渠道核查是其中的必要环节. 传统的作业方式主要分为业务代表现场考察以及第三方外包核查, 但都存在人工误差大、核查周期长、核查成本高以及误差数据无法溯源等缺点. 随着深度学习的迅速发展, AI (人工智能)已经成为高端科技的代名词, 各行各业的AI应用层出不穷. 基于深度学习的图像识别技术凭借着高精度、高泛化性, 非常适合应用于渠道核查的业务场景, 是核查工作强大的助力. 渠道核查主要包含两大识别内容, SKU (Stock keeping unit), (库存量单位)识别和价格牌识别, 本文工作主要针对价格牌识别的需求. 价格作为销售数据的基石, 对识别精度非常敏感, 目前基于深度学习的价格牌识别技术容易受到其外观样式、拍摄质量等因素的影响, 如模糊、倾斜、光照不均匀等. 因此, 如何克服实际应用中可能遇到的复杂场景, 准确识别价格牌中的信息是 OCR (Optical character recognition)领域的一个重要研究目标.

目前, 应用性较广的价格牌识别算法大多以文本识别算法为基础. 基于卷积循环神经网络(Convolution recurrent neural network, CRNN)[1]的识别方法, 为序列识别任务带来了突破性的进展, 也为文本识别领域打开了一扇大门. 随后基于CRNN变体和各种注意力机制的文本识别算法[2-3]层出不穷, 相较于前者, 增加的注意力机制主要用于关联输入信息的相关性, 这种方式显著提高了通用文本的识别精度.

目前国内外的文本识别研究, 普遍关注没有符号的文字序列. 对于价格牌这类带有符号的序列识别, 一些在通用文本数据集上表现优异的算法[4-5], 性能并不能令人满意. 为此本文提出了一种多任务的卷积神经网络, 有效地提高了价格牌的识别精度.

在价格牌的识别任务中, 精准地识别所占像素比例很小或直接被省略的小数点, 是非常困难的一项任务, 也是其区别其他文本图像识别任务的重点. 现有的绝大部分算法是将价格牌的整体进行无差别的识别, 但是由于价格牌的种类繁多, 以及一些客观因素的影响, 导致其在图像中的特征并不明显, 即使采用基于上下文关系的序列识别算法也很难准确定位小数点的位置. 为此本文提出了一种将整数部分与小数部分分开, 协同识别整体的方法, 实现对小数点的准确定位. 使用端对端的多任务训练策略进行学习, 降低训练的难度. 经过实验证明, 本文提出的方法不仅在识别精度上有着优越的指标, 对于小数点的识别更是超越了以往深度学习算法的成绩.

由于已开源的数据集中暂无价格牌这一特定场景, 我们将实验中使用的价格牌数据集开源出来以供研究使用. 我们的数据集采集自真实货架场景图像, 涵盖不同样式, 不同拍摄角度, 不同光照变化等, 其中包含训练集10 000张, 测试集1 000张, 困难测试集1 000张(包含了手写价格、模糊价格以及其他影响因素的价格数据), 训练集及测试集的数字区域比较清晰, 辨识度较高, 而困难测试集的数字区域大都存在干扰项(如反光、拍摄重影、双价格标签等), 辨识度较低. 此外, 为了进一步验证本文所提出方法的泛化能力, 我们在类似的车牌数据集中也进行了相关实验, 实验结果表明了本文所提出方案的有效性.

图 1 卷积循环网络结构

图 2 价格牌图像

图 4 基础单任务识别网络结构

本文针对新零售领域价格牌识别应用提出了基于多任务的价格牌识别网络, 针对特定场景图像文本的数据结构, 将整体数据分开处理, 通过先识别整数分支与小数分支替代识别完整价格, 最后添加小数点来解决小数点难以识别问题. 我们的网络采用卷积循环网络的结构, 以循环层注意力机制解码序列, 结合多任务学习机制, 用特定的领域知识联合学习难以定位的特征信息. 本文所提出的方法在我们开源的价格牌数据集上, 相比目前主流的文本识别算法有着明显的精度提升, 并且在类似数据结构的车牌数据集中也有非常好的效果. 我们的工作目前只针对具有特定文本结构的图像, 对于通用文本的泛化性较差, 接下来的工作将会考虑多任务机制在通用文本上的可行性研究.

作者简介

牟永强

广州图匠数据科技有限公司首席AI架构师. 2012年获得西安理工大学信号与信息处理专业硕士学位. 主要研究方向为机器视觉，模式识别以及深度学习. 本文通信作者.E-mail: yongqiang.mou@gmail.com

范宝杰

广东工业大学硕士研究生. 主要研究方向为深度学习和计算机视觉.E-mail: 735678367@qq.com

孙超

华南农业大学硕士研究生. 主要研究方向为深度学习和计算机视觉. E-mail: ice_moyan@163.com

严蕤

广州图匠数据科技有限公司高级研究员. 主要研究方向为深度学习和计算机视觉.E-mail: reeyree@163.com

郭怡适

广州图匠数据科技有限公司首席执行官. 主要研究方向为深度学习和计算机视觉.E-mail: yi.shi@imagedt.com

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3291369-1344354.html

上一篇：基于局部空间信息的可变类模糊阈值光学遥感图像分割
下一篇：基于最后逃逸时间的随机退化设备寿命预测方法

收藏 IP: 222.131.244.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

面向精准价格牌识别的多任务循环神经网络

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

面向精准价格牌识别的多任务循环神经网络

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)