随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

计算语言学与数字人文

已有 4338 次阅读 2018-8-30 20:49 |个人分类:Dighital Humanity|系统分类:教学心得


    跟着导师做了多年的古文处理,做着做着,不知不觉,就对数字人文感了兴趣。仔细一查,原来是同源。数字人文的祖师Roberto Busa从40年代开始,给《圣经》做电子化和全文检索。这和计算语言学的早期工作很相似,只是数字人文更强调对于人文学科的反哺作用。后来,历史文献、文学作品以及图书馆、博物馆的藏品都成了数字人文数据库的收录与检索对象。于是图书馆、博物馆便成了数字人文的主倡者与实践者。
    我大约是从2014年模糊地认识这个领域的,在一次计算语言学国际会议上结识了Unsworth的学生,才知道这领域。后来更是凑巧地去布兰迪斯大学语言处理小组访学,竟然发现Unsworth就是该大学的图书馆长,而且是数字人文的领域领域的领军人物,不得不去拜访了一下。收获自然很大,我介绍了自己在古文方面的研究,他也给我介绍了可以合作的一些学者。可惜当时真的没多想,还是一心做计算语言学,一直没有联系这些学者。
    当我2015年从美国访学回来,才发现国内的数字人文领域正好开始发力,成立了一批数字人文研究中心,举办了一批数字人文的学术会议。不过,国内在期刊与科研项目方面还比较薄弱。这一点,在高校体现得较为明显。因为数字人文要作出真正的成果,需要解决文献、文物的版权问题、数字化与建库相当烧钱,规模小,基本上只是玩具。而图书馆、博物馆还是处于有需求、无技术的境地。这技术看似普通的IT公司都可以接单,但实际上,数字人文的关键技术主要是文本计算与虚拟现实技术。而文本计算又不得不面对语料库加工与机器学习技术。而文献与藏品不允许常识错误,对于历史知识又有较高的要求。这使得一般的小公司无力进行外包,学校力量也很难满足这种企业级应用需求。所以,和NLP领域工业界大火不同,数字人文领域的项目对历史人文的专业素养要求,使其大规模实践难以展开。这显然需要历史人文+计算应用的跨界合作。
    当我看到数字人文领域在理论与实践上的巨大需求时,心都醉了。这不是我们中文系出身的技术流很好的用武之地吗?于是,我对学生们大声疾呼,同学们,这是你们的好时代。你们热爱文学,懂得语言学,学过高数与编程,数字人文领域简直就是为你们量身定制的战场。来吧,一起体验语言、人文与计算的快乐!



https://blog.sciencenet.cn/blog-39714-1131911.html

上一篇:深度学习来了火了,计算语言学不用慌,语言学大有可为
下一篇:构建众包词典平台——第十二届全国汉语词汇学参会观感
收藏 IP: 112.2.4.*| 热度|

3 宁利中 王安良 郑学军

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 01:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部