博文

SIGHAN——中文信息处理技术评测的里程碑

已有 1179 次阅读 2023-8-20 11:21 |个人分类:Computational Linguistics|系统分类:观点评述

（按：近日拜望了计算语言学家黄昌宁先生，他是SIGHAN的推动者，对标准制定、资源构建、语言建模有着深厚积累与深刻理解。他强调语言问题的可计算、可评测一直深深影响着我。）

2003年在日本札幌召开的SIGHAN，是中文分词的里程碑。

做中文计算，需要先分词。但是分词标准很多，词表不同，语料库也不同，造成自动分词系统很难有一个标准的评判。分词的结果往往依靠人来评价，容易出现公说公有理婆说婆有理的窘境，不利于技术进步。

SIGHAN2003的贡献在于，团结了四家做分词语料库的单位，北大、宾州树库、微软、香港（繁体现代文）各有一套分词规范，也都有配套的语料库。于是乎，四种语料一起比赛，分为训练集和测试集，评测的结果全靠机器自动来评分。每种语料，都各自评分，最终考验的就是算法，不会再纠结于一词一处的争论。

虽然赛后也有参赛队反馈，评测的语料中有一些分词错误，但是无伤大雅。因为，人工标注难免出现一些差错。而更好的结果是，国内学界普遍认同了这种构建高质量语料，通过公开、公平的技术评测，考验机器学习算法的研究路径。

自此，提高语料库的质量，减少标注规范的内部冲突，提升机器学习的算法性能，成为不同团队努力的方向。而这种趋势不止于汉语分词问题，学界的氛围越来越好，北大的现汉综合型语言知识库影响力越来越大，而清华、中国科学院、哈工大三驾马车的算法也越来越强。

SIGHAN在后续的评测中，每隔一两年就举办一届，涵盖了汉语分词、词性标注、命名实体识别、句法分析等等。可以说，把汉语分析的基本任务都走了一遍，有力地推动了资源建设、技术进步和人才梯队的培养。

虽然SIGHAN2002是第一届，但是没有举办评测，作为ACL的汉语特别兴趣小组（SIGHAN：special interest group of 汉语），召开的工作坊。2001时，仅称为Chinese Language Processing Workshop（汉语处理工作坊）。

2015年，是SIGHAN的第八届会议，影响力还比较大。到了2017年，没有举办评测，仅有6篇论文。似乎没有什么大家特别关注的汉语NLP问题需要进行评测。六年来，SIGHAN消失在学界的视野中。

之所以“似乎”，是因为汉语的评测并没有停歇，在全国计算语言学大会CCL和计算机学会的NLPCC两个国内的计算语言学大会上，分别开设了技术评测Workshop，每年举办几个至十几个汉语评测任务，例如分词（多领域）、句法分析、语义分析、阅读理解等等。还有知识图谱、情感计算、机器翻译的领域会议，也举办了不少汉语方面的评测。而这些评测无不受到SIGHAN的影响。

当然，过分神话SIGHAN也没有必要。在SIGHAN之前几年，国际上的CoNLL（Conference on Computational Natural Language Learning）、SemEval(lexical and Computational Semantics and Semantic Evaluation) 两大系列评测也已影响颇大。只是SIGHAN的出世让国内真正领略到了这种相对科学的技术评测方法的威力。

我们也没闲着，一方面在国际上组织古代汉语的系列评测EvaHan，希望古汉语的信息处理问题能够得到更多团队的关注和技术攻关。另一方面，组织汉语语义分析的系列评测CAMRP。用SIGHAN的套路，非常管用，确实推进了技术进步。

希望中文的计算评测越做越好！

转载本文请联系原作者获取授权，同时请注明本文来自李斌科学网博客。
链接地址：https://blog.sciencenet.cn/blog-39714-1399684.html

上一篇：静海寺终于开了——南京打卡新地标
下一篇：乱花渐欲迷人眼——信息爆炸时代需要一本城市生活手册和新的信息互动模式

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士希望在这里留下学术的足迹

博文

SIGHAN——中文信息处理技术评测的里程碑

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

李斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

SIGHAN——中文信息处理技术评测的里程碑

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士希望在这里留下学术的足迹

该博文允许注册用户评论请点击登录评论 (0 个评论)