henucs的个人博客分享 http://blog.sciencenet.cn/u/henucs

博文

ShopSign: 大规模中文标牌图像数据集 共计25770张商铺标牌图像 (河南大学 张重生)

已有 4689 次阅读 2019-4-2 20:04 |个人分类:科研笔记|系统分类:观点评述

ShopSign: 大规模中文标牌图像数据集发布了! 共计25770张商铺标牌图像。


希望该数据集能够促进汉字场景图像的识别研究!  目前,汉字识别的正确率不超过50%! 甚至更低。


为了构建ShopSign, 我在河南大学组织了40名学生(研究助理),另有10名标注人员,历时两年多,纯手工构建了一个大规模的中文场景图像数据集。该数据集的特点是均为商铺标牌(匾额),共计25,770张图像。 横跨北京、上海、新疆、福建厦门、辽宁、黑龙江、内蒙古(呼和浩特),以及河南的郑州、开封,及商丘、周口、信阳的县级市,及城市中的落后地区(城市中的郊区)。


该数据集上拟研制的技术,对于电子地图、基于位置的服务等领域具有重要作用! 很多图像都自带有GPS位置信息!


图像几乎全部用手机拍摄,少部分用单反相机拍摄。由于汉字的特点,该数据集极为稀疏和不均衡。 由于没有第三方平台和公司的资助,我们耗时两年零四个月才完成该数据集的收集及标注加工。


尤其值得说明的是,很多有代表性的图像大多是我本人亲自采集的!


【街景店铺(中文)牌匾图像数据集】’shopsign - The Website of Our Shop Sign Dataset (a large-scale natural scene images with Chinese texts)'

GitHub: http://t.cn/EJR9dix

paper:《ShopSign: a Diverse Scene Text Dataset of Chinese Shop Signs in Street Views》(2019) http://t.cn/EJR9diJ ​

微博大v爱可可报道了这个数据集。


该数据集将全部对外开放,不做任何保留。尤其是不保留测试集的标注。

欢迎来信合作! 希望大家多多提意见!


张重生

河南大学(cszhang@henu.edu.cn)


arxiv论文地址: https://arxiv.org/pdf/1903.10412v1


github地址:    https://github.com/chongshengzhang/shopsign


A1.jpg





https://blog.sciencenet.cn/blog-3100235-1171115.html

上一篇:Multi-Imbalance: software for multi-class imbalance learning
下一篇:[转载]也谈中年学术危机(邢春冰)
收藏 IP: 221.176.159.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 00:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部