生态学时空分享 http://blog.sciencenet.cn/u/lionbin 自我营造一个可持续发展的学术生态系统

博文

云时代,人云亦云(1):趣谈云翻译

已有 7916 次阅读 2013-11-9 00:28 |个人分类:科普荟萃|系统分类:科普集锦| 云计算, 云翻译, 云时代

在不远的过去,云是很容易理解的,指停留大气层上的水滴或冰晶胶体的集合体。但现在问什么是“云”,十有八九会把人问倒。不信你可以用“云”作为关键词在谷歌中查查,你会发现绝大多数词条与你曾经理解的云没有什么关系。是呀,云时代了,什么都云了,我们都只好人云吾云了。由于云是新生事物,不同的人从不同的角度,也许对云的解释会略微有些不同,甚至有较大的差异,这应该属正常情况。除了一些有明确定义的关键术语,该文的主要内容完全是从我的非技术角度来谈论的。如有不妥,请指正!

百度百科说“云是网络、互联网的一种比喻说法”。按照我的理解,更明确地说,云应该是通过网络连接的计算机群,每一个群包括了数以万计或者更多的计算机。云有许多好处,云中的计算机可随时更新,保证云长盛不衰。许多IT巨头,如谷歌、微软、雅虎等就有这样的云。对于用户来说,我们只需要一台能上网的电脑,不用关心存储或计算发生在哪朵云上。一旦需要,可以在任何地点用任何设备,如电脑、手机等快速地找到这些资料而不用担心资料会丢失。到目前为止,谷歌可以说是将云最物尽其用的公司了,其真正的竞争力也体现在这些云上,这使得谷歌有了无与伦比的存储和计算全球互联网数据的能力。

与云相关的应用中,云计算是最常出现的词语了。按照Wiki的定义,云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化资源的计算模式。其他的应用显然就是在云计算的基础上而建立的。下面举几个例子来说明,比如:

云安全——使用者越多,则大家就越安全。这方面相信使用智能手机的用户应该已经开始亲身体会到了。比如,我正在使用的360卫士,每天就为我拦住了许多不胜其烦的广告短信和电话,这些电话号码只要一个人上报了,所有使用这个服务的手机用户都知道了,很快就被截获。人人为我,我为人人嘛。

云游戏——有人说,电脑硬件的发展,游戏玩家的需求也帮了不少忙,从某种程度来说,这是不无道理的。为了达到最佳的体验和显示效果,需要配最高端的CPU和显卡。不过以后,就不需要这样了,因为所有游戏都在服务器端运行,仅将渲染后的游戏画面压缩传递给玩家,而客户端用户则不需要任何高端处理器和显卡,只需要基本的视频解压能力就可以了。

云存储——以数据存储和管理为核心的云计算系统。提供这个服务的公司已经很多了,我自己的电脑上就安装了管理360云盘和百度云盘的应用程序,查查你的电脑中有几个?

云物联——这涉及到物联网和云计算的概念,此时,云计算可看成互联网中的神经系统的雏形,而物联网则是互联网正在出现的末梢神经系统的萌芽。当世界上所有的物体都通过网络连接的时候,那是怎样一个智能的世界呀!

其他一些应用,比如,云教育云会议云社交等本质上是类似的东西,只是针对不同的群体和目的而出现的略有差异的应用而已。这比较容易理解,就不再赘述了,因为我还想谈一些更有意思的应用。

对于云的应用,如有可能,我想写成一个系列博文。前面是一个引子,后面的内容作为开篇,先来聊聊云翻译

利用电脑来辅助翻译,即所谓的机器翻译,是许多人都梦寐以求的。机器翻译的研究历史可追溯到还没有个人电脑的时代,但研究很快受挫,后来在个人电脑的普及下,又重拾信心,开始了新的发展历程,特别是互联网的出现,更是为机器翻译的发展提供了飞奔的翅膀。从我所经历的使用个人电脑和网络的发展来看,大体上可分为如下几个阶段。

最开始的电脑翻译,其实就是一套软件,可安装在个人电脑中使用,功能不多,基本上是词-词对应翻译,倒也省去了翻阅词典的麻烦,但翻译的句子搞笑的成分居多。上世纪90年代末,有一个朋友的公司所开发的翻译软件,让我帮忙测试一下(软件名字就不说了)。我拿到软件,就想先用简单的句子测试一下,从简单问候语开始吧。“How are you”,软件居然翻译为“怎么是你”;句子长一点试试,“How are you doing”,软件翻译为“怎么是你在做”;算了,还是换一个话题吧,问问年龄,“How old are you”,翻译为“怎么老是你”。本来我还想测试一下“How do you do”的,如此看来,也不用它翻译了,我估计会翻译为“你搞什么搞”。这种只能按照对应词翻译,而不能翻译句子的软件,也只能做简单的辅助翻译了。

后来,网络开始发展了(确切地说,应该是谷歌搜索发展了),就可以更多地利用网络资源。翻译文章的时候,有把握不准的地方,可以将双语资料同时输入搜索引擎查一查,参考网上有对应翻译的资源,这样可大大提高翻译的准确性。此外,还可以通过搭配查询,以确定在一个句子中用什么词最合适,但这是一个需要人自己操作的过程,并不能实现机器的自动翻译。当然,采用类似想法已经开发出多个软件,其中我最熟悉的就是有道词典,它通过收集双语语料作为“例句”,可帮助我们进行更准确的翻译,这如果用于训练机器,当然也可加强机器翻译的效果。有道词典的那个全文翻译应该就是这样设计的。

不过,这些类似软件的共同瓶颈是,大多语料库还相对比较缺乏,还不足以训练出足够“聪明”的语言模型和翻译模型。虽然现在已有一些技术可实现从网上抓取各种语料资源,但网络资源本身的质量是难于保障的,比如,网上的东西也许本来就是错误的,可见语料库的创建本身还是要人的参与,因此这些软件开始采用众包的模式——用户可以为机器翻译的结果添加改进建议。要完成这样的功能,这就需要慢慢进入到了下一代翻译软件,在云平台的基础发展出的“云翻译”。从我了解的情况来看,谷歌翻译在这方面有很大的领先性,因此下面就谷歌翻译目前的产品Google Translate Toolkit来看看云翻译的发展趋势。

2006年,谷歌公司开始涉足机器翻译。谷歌的目标是“收集全世界的数据资源,并让人人都可享受这些资源”。为了训练计算机,谷歌吸收它能找到的所有翻译,从各种各样语言的公司网站上寻找对译文档,因此汇集了大量的语料库。如果不考虑翻译质量的话,谷歌目前收集的上万亿的语料库相当于950亿句英语,这大体上完成了语料库的收集工作。通过这些语料库作为“训练集”,可以正确地推算出英语词汇搭配在一起的可能性,因为我们相信正确的句子和搭配有更多的出现概率。

利用云平台进行进行人机交互。如果用户对在线翻译的结果交互进行校对和精确的专业翻译,这种信息也会传递到云,她就会记住用户的修改,可在之后服务用户自己(个性化定制),也可分享给其他用户。谷歌本身自带大量的普通词汇和专业词汇,但也许仍然不能满足一些用户的需求,因此也允许用户导入自己的专用词汇表,这样,机器翻译会优先采用用户的词汇表来调整翻译。当然词汇表也可以共享,这对于多人协作翻译很有用,可保证多个译者对同一个专用名词在整本书内的一致性。另外,你放心,谷歌一定会自作主张地记住你所有的译文,这些译文可以作为你日后翻译的参考,如果你愿意,也可以共享你的记忆库,让协作者利用你的成果;如果你许可放到公共翻译记忆库,你的翻译知识就可以被所有人所用,当然同时你也可以享用他人的翻译成果(需要提醒注意的是,如果你不指定自己的翻译记忆库,谷歌会默认将你的译文放入公共翻译记忆库,这是谷歌一直以来的习惯了)。

这些功能的确将人类翻译的智慧集中起来,大大提高了参考翻译的可用性。这就是云,在云里,我们与对方协作,不需要知道对方是谁。计算机翻译技术正在从“人-机-人”模式进入到“机-人-机”模式,这一转变似乎是从人需要机器的帮助,到机器需要人的帮助,但主角却发生了变化。虽然机器翻译在云时代取得了这么大进步,但我们还应该知道,在全文翻译中,词的搭配、同义词和反义词等相关词组的选用、感情色彩等信息是流畅翻译的重要方面,这一点机器翻译是否能胜任,我们将拭目以待。从对谷歌翻译的实际体验来看,是做得越来越好,所翻译句子的可读性也越来越高,但离真正理想的机器翻译还任重而道远。

如果觉得这个有趣,可再看我的下一篇:云时代,人云亦云(2):趣谈云教学



https://blog.sciencenet.cn/blog-502444-740185.html

上一篇:关注温室气体对气候的影响,并不排斥自然对气候的驱动
下一篇:云时代,人云亦云(2):趣谈云教学
收藏 IP: 124.77.169.*| 热度|

17 李红 陈楷翰 赵美娣 曹聪 郑小康 廖晓琳 高峡 黄富强 张学文 苏德辰 刘洋 李欣海 蔡庆华 张晓良 张强 biofans rosejump

该博文允许注册用户评论 请点击登录 评论 (24 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-18 11:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部