《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【新智元笔记:植树为林自成景(40/n)】

已有 4845 次阅读 2016-4-20 16:04 |个人分类:立委科普|系统分类:科研笔记| parsing, 句法树

老友最近不知道看到啥掐架,硬要我的parser帮个忙:

老李,用你的大杀器分析一下这个句子。

日期: 2016/04/19 03:19:16

不用解释,把断句结果贴出来就行了。不许人工调整作弊哈!

Though modern self-help had its origins in works by classically trained psychiatrists (such as Berne and Harris), today's leading exponents have as much business trading in mental health as they do performing neurosurgery. They're snake-oil salesmen, pitching regimens that have never been validated.

老友说: 这个句子好难。读懂就不容易了,翻成中文更难。

我告诉他:作啥弊,我的 English parser 早就超过绝大多数人类的分析能力,有点小缺陷更真实,否则还以为是神迹呢。

需要讲解的话,我可以对这个分析讲解一哈。

宾大找语言学研究生标注树,平均质量也不过如此吧,还要各种协调来确保不同标注者的一致性问题。自动 parser 可以无休止的画树,而且没有一致性协调的问题。总有一天这类质量的树可以作为公益公开,让研究者在它的肩膀上做更深入和具有挑战性的研究,或者用它做不同的应用。

本单位是没指望了,老总为争夺市场的主导权忙得不可开交,哪里对研究界的需求和可能的影响有丝毫兴趣。三四年前,我们有20-30个对手在雷达上,掐到今天,大部分死了,剩下四足鼎立,市场斗争白热化。

今年倒好,有评价机构,把我们升格为这个市场的主导者(dominant player),更要往前拼了。

董:

这里是HowNet机译系统的翻译结果,供参考比较。

尽管现代自助在做工中利用古典地训练精神病医生有它的原点和Harris (诸如)伯尔尼,今天的领导指数有如同他们那么许多在精神健康中从事贸易的生意做做神经外科。他们是迂回前进油推销员,支治疗方案,这些治疗方案已从未得到批准。

白: snake-oil可以意译为“狗皮膏药”吗?

董: 我来告诉你snake-oil的翻译,系统词典上没有snake-oil这个合成词。那是上来系统选上了snake的动词意义,然后处理“-”合成为一个词语。

白:

尽管现代互助疗法缘起于用古典方式调教出来的诸如哈里斯、伯尔尼等精神病学家的著作中,今天精神医疗最起劲儿的鼓吹者们却如他们在神经外科领域所做的一样,尽其商业营销之能事。他们就像卖狗皮膏药的江湖郎中,拿着从未被验证的疗法四处兜售。

董: 我查了WordNet,snake-oil的定义是:

1. (1) snake oil -- ((medicine) any of various liquids sold as medicine (as by a travelling medicine show) but medically worthless)

2. humbug, snake oil -- (communication (written or spoken) intended to deceive)

你译成狗皮膏药,很贴切。金山词霸有该词条,译为:江湖郎中开的药。谢谢。我已将其收入知网词典了,它的定义:{medicine|药物:modifier={fake|伪}},英文例子就用了上面的原文。

洪:转:这名字起的:“4月18日,董事被任命为东北特钢党委书记并被推荐为董事长人选,在干部大会上,“新任集团公司党委书记、董事长董事作了表态发言”。董事此前任本钢集团党委副书记、董事。”

我:@洪爷,糊涂的是语义诠释,不是parsing


洪:

乌龙院喝乌龙茶,董事董事长衔挂。

人读此类头怵大,伟爷parsing仍敢抓。

白:

“我自己发小的亲妹妹,请大家帮助转发,有消息提供者有重谢!谢谢!请大家帮忙!”

这个让我着实困惑了一下。“发小”不仅是名词,还有坑。“小的”也是名词,自谦。发,可以是动词,而且及物,某些情况下还可以双宾。


我: “小的”的名词用法太危险,一般不敢入词汇。即便“发小”, 也只能做默认,也是因为有危险。如果真想处理 “小的” 的用法,也只有专写词驱动的特例规则了。

汉语的二字词比较缠人。如果这两个字其中恰好一个是常用字,边界纠缠的危险和麻烦就可能出现了。如果两个字都是常用词,恭喜你有的忙了。

白: “小的”不入“发小”入,这就没难度了

我: 小是前n常用字,“的”是万能字,前 5 还是前 3?

白: 绝对前三,搞不好第一

我: 词驱动是个法宝,什么都可以搞定,不管“小的”还是大的,可那真是苦力啊。

发小有危险,但还可以扛得住。

再植几颗树,凑成十个:



Nick: 就爱狐狸就爱狐狸就爱狐狸

查: 也可能是蛇精哦




【相关】

【deep parsing:植树为林自成景(10/n)】 

【deep parsing:植树为林自成景(20/n)】

【deep parsing:植树为林自成景(30/n)】

【立委科普:语法结构树之美】

【立委科普:语法结构树之美(之二)】

【置顶:立委科学网博客NLP博文一览(定期更新版)】  







https://blog.sciencenet.cn/blog-362400-971470.html

上一篇:【新智元笔记:词的幽灵在NLP徘徊】
下一篇:【deep parsing 吃文化:植树为林自成景(60/n)】
收藏 IP: 192.168.0.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 09:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部