教书育儿做科研分享 http://blog.sciencenet.cn/u/danfouer 以文会友,以理治学,文理交融,教学相长。

博文

为什么要读大学(八):亮剑——三个屌丝——奔走在逆袭的道路上 精选

已有 7281 次阅读 2014-1-25 09:21 |系统分类:教学心得| 亮剑, 屌丝逆袭

好,最后再讲一个今年(2013年)四月份发生的事情,就是这个中文手写汉字识别大赛,我相信前面的老师已经跟大家介绍了不少的我们自动化专业学生参与的比赛,或者说我们计算机学院学生参加的比赛,但是这个比赛跟那些比赛都不一样,我这里有一段说明的文字,这个说明的文字是什么呢,就是我们参加的是2013年八月在12届国际文档分析与识别会议上举办的一场赛事(ICDAR2013Chinese Handwriting Recognition Competition,是由中国科学院自动化研究所举办的,就是中文手写识别大赛,那么今年,这张网页上介绍介绍的是2011年的情况,今年我们参赛的,国际上的那些单位我就不说了,国内的除了我们中南民族大学,就只有两家,一家是清华大学电子工程系的丁晓青教授的团队,他们在汉字识别,就是从最开始的联机识别,印刷体识别,到后面的手写体识别,至少做了30年,然后她手下有一大帮博士、硕士跟他做这个事情,这是我们的一个对手。然后另外一个对手是哈尔滨工业大学的苏统华助理研究员,他的博士论文就是做这个中文手写识别方面的研究的,然后他带了一个团队来做这个事情,然后呢,我就带了个本科生,我们也来做这个事情,我们是从什么时候开始的呢,这个比赛是2013 4月份举行,比赛的方式是,大家都把自己的程序交上去,跑人家数据,就是你训练出来的算法,编好程序交上去,然后跑人家的数据,我们大概是从2012年过完年,大概是23月份,我们开始启动这个项目的(文字识别统一平台工作规划.pdf),开始我给两个学生,一个是杨兵,一个是李晓晓,其实主要是他们两个人,开始我给他们的程序是什么呢,就是给的我做的那个印刷体彝文识别的程序,我就把这个程序给他们了,我说,你们就把这个印刷体彝文识别的程序用在手写汉字识别上,看看怎么样。所以,到暑假结果出来了,差得一塌糊涂,因为印刷体跟手写体有巨大的差异,然后彝文和汉字又有巨大的差异,彝文只有1000多个,汉字有3000多个,一级字库的话。然后说这个怎么办,我告诉大家,从头到尾我是没有参与编程序的,我把代码给他们之后我从头到尾没有编一行程序,我就做什么事情呢,我说,做得不好对不对,不如人家、差距很大对不对,好,你们去看,别人是怎么做的,去看,一共四个块,规范化是怎么做的,特征提取是怎么做的,特征压缩是怎么做的,然后分类器是怎么做的,跟我们比,我们是怎么做的,然后,你们去看,看完了之后和我做报告,你跟我讲,别人规范化是怎么做的,别人的特征提取是怎么做的,别人的特征压缩是怎么做的,别人分类器是怎么做的,这个东西对他们就非常痛苦了,因为我的标准是,什么时候我听懂了,就算你搞懂了,明白不,你要讲得我不懂,就说明你没搞懂,你就回去重新搞,重新看,当然,我那个时候也比较忙,我还是尽量每个星期给他们开一次会,一开会就这样,我就坐在下面,讲吧,然后他们就开始讲讲讲..,,然后我说:“真的是这样吗?不是吧?你再说一遍。我没搞懂。”我一共就这四句话,大家知道吧,这就逼得他们不断的去思考,不断的去反馈,不断的去总结,不断的去提高,然后最后还要编程算法,编程程序,实现出来,然后拿着结果来和我说,我们就这么大概做了...,因为,后来主要是那个李晓晓做了,因为那个杨兵说了89月份他是白天在公司实习,晚上在做,然后9月份到12月份,才有一段时间做,然后到了第二年,真正要比赛的时候他又跑到腾讯去了,腾讯要他实习去,然后就主要李晓晓一个人,把我们这个规范化,特征提取,特征压缩和那个分类器这里全部都给我换了,也就是说这个程序里面已经没有我当初给他们程序的影子了,全部都变了一遍,那么,可以给大家看一下比赛后面提供的报告,我们可以看一下,这就是,在那个20138月,那个国际会议上面中科院自动化所他们做一个报告ICDAR 2013 Chinese Handwriting Recognition Competition.pdf,上面就介绍这个比赛的情况,那么你们可以看看这个参赛的单位,第一个是特征分类比赛,国内的,第一家,其实一共就三家,第一家是谁?HIT,谁啊,哈工大,HIT,然后,第二家,大家应该很很熟吧,SCUEC,这个就是我们,你看,李晓晓,杨兵,朱宗晓,我们三个人,第三家,THU,清华。这是这个比赛,然后在这个脱机的字符识别里面,也是我们这几家,第一个是哈工大,第二个是SCUEC,第三个,看起来像个日本公司,所以我们是有日本竞争对手的,然后还有谁啊,瑞典吧,瑞典的一个研究所,然后还有清华,然后我们还参加了一个,脱机的手写识别的比赛,当然,我们肯定不能跟人家在结果上去比较,差距还是很明显的,你比方说这个,特征分类的这个比赛,一共就哈工大,清华和我们参加了,我们排第三。当然了,这是这个结果,我先把结果说完,然后我们的那个,脱机字符识别的就要差得远一点了,到后面这个文本识别的,文本识别就差得更远了,文本识别我们只是简单的把分割和识别结果凑在一起,就放了进来,能够跑完所有的数据,但是结果不太好,因为我本来参赛的目的也不是为了去争这个名次,我就是要看看,我们的本科生,经过这样一套研究型学习训练,能不能够完成这样一个,应该叫做代表世界最高水平的识别大赛的任务,最后证明我们是能够做到的也就是说,你们也有可能可以做到,当然这就取决于你们的努力和能力了,我们现在还有一个团队还在继续的做,当然他们的基础就好很多了,因为他们现在就是从参赛的程序作为起点再来开始研究了,不像他们以前是从我的程序作为起点开始研究,这是这个比赛的情况。


   左边是李晓晓,右边是杨兵。



https://blog.sciencenet.cn/blog-48882-762074.html

上一篇:孩子这盘菜
下一篇:为什么要读大学(九):研究型学习的具体操作
收藏 IP: 183.94.56.*| 热度|

6 高文元 刘全慧 张能立 罗朋峰 赵凤光 biofans

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-18 17:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部