为了方便理解线上机器翻译,我们先来解释几个概念。环球网是基于互联网的信息表示、存储与传播的系统。互联网是通过光纤电缆或微波卫星联接起来的巨型计算机通信网络系统。超媒体是超文本(Hypertext)与多媒体(Multimedia)的结合。我们平时看到的文字资料称为线性格式文本,如图书和报纸等,它们都是以串行顺序方式印刷的。超文本资料则是以空间方式存放,构成非线性、非顺序、无边界的信息空间,使读者可以通过超链接(Hyperlir1k)在这种信息空间内自由翱翔。多媒体是近几年来计算机领域中发展的一项新技术。它使计算机所处理的信息从传统的数值和文字,扩展到声音、图形、图像、影视和动画等。
下面介绍三个影响较大的网上机器翻译系统:
SYSTRAN提供的免费网页翻译服务,Globalink开发的名为Web Tra-
nslator翻译软件,以及compuServ的环球公众l2if(World Communi-
ty Forum)。SYSTRAN公司开发机器翻译系统的历史悠久而且硕果累累。今天,欧共体委员会(Commission of the
European Community)已使用SYSTRAN 开发的机译系统,实现了其六种官方语言:英、法、德、意、西班牙和葡萄牙文的互译。据估计,欧共体每年约有35%到40%的经费用于“语言问题”开销。SYSTRAN这种实现不同语种相互机器翻译的成果对欧共体的运作法入了高效润滑剂。
美国国家情报中心的分支机构遍布全球,对收集到的情报要及时处理,以供决策者作决策依据。依靠SYSTRAN的机器翻译软件,辅以网络技术,国家情报中心已经实现了线上翻译。国家情报中心拥有一个名为“开放资源信息服务”(Open
Source information Service)的网络。情报工作者只需要把要翻译的文本提交给该网络,该网络使用9种由SYSTRAN开发的不同语言对机器翻译软件完成翻译工作,然后把结果回送给情报提交者。“开放资源信息服务”网络与一个叫Interlink的高级机密网络连接,而后者则直通五角大楼和中央情报局。1994年,一共有3000个用户、35个情报机构使用“开放资源信息服务”网络,实现了情报的线上翻译。
1996年,SYSTRAN推出了世界上首项线上环球网网页机器翻译服务,目前该项服务只限于英语与德语、法语、葡萄牙语、意大利语和西班牙语的互译,以及俄语到英语的单向翻译。用户只需键入要翻译文件所在的网页地址,选择目标语言语种,键入用户电子邮箱地址。只要被翻译的文本不超过10K字节,此网页机器翻译系统会免费为用户翻译丈本并随后把译文送回给用户。此系统是以客户/服务器(Client/server)体系为基础开发的,由一台名为SYSTRAN翻译服务器(Translation
Server)执行翻译工作。此台服务器同时运行11种语言对翻译软件,接受来自全球各地的翻译服务请求。用户在提交要翻译的文本后,视原文本长度及服务器繁忙程度,会有不同程度的延迟,有时甚至会中断服务请求。
SYSTRAN的环球网线上机器翻译系统规定要翻译的文本必须放在互联网上,笔者曾在澳门大学用在该校网页上刊载的英文版和葡文版的澳门特别行政区基本法测试此环球网线上机器翻译系统,发现译文正确率达80%。众所周知,法律文件对语言描述的准确性要求甚严,任何模棱两可的含义都会造成严重后果。因此,SYSTRAN环球网线上机器翻译系统的测试结果令人鼓舞。
另一家快译公司Globalink。该公司创建于1989年。目前该公司的软件仅实现西班牙语、法语、德语、意大利语与英语互译。
据Globalink发表的资料称:全世界范围内靠机器翻译软件完成的语言翻译总额,Globalink系统占了80%,可见在机器翻译市场,该公司是一一个举足轻重的角色。
Globalink目前提供一种叫做Web Translator的线上机器翻译软件。该软件运行在SUN公司出品的Netscape和微软的Explorer上,能够实现互联网上的西班牙文、法文、德文与英文信息的线上实时互译。这意味着一个只懂英文的用户在浏览用法文书目的网页信息时,只要运行该软件,便能生成该网页信息的英文译文。安装并运行Web
Translator软件后,用户想要浏览非本民族语言书写的网页信息时,具体操作是:首先用Netscape或Explorer浏览器找到要查询的文本信息,用户再接菜单选项的“翻译’,按钮;随后选择源语言与目标语言语种;最后Web
Translator产生翻译草稿,并插入浏览器中,且译文输出格式与源语言版面格式保持一致。在翻译的过程中,容许用户自己设走存储已翻译出来句子的译文量,范围为3页到999页的连续文本。这些已经翻译出来的源语言文本与目标语言文本同时被存储起来,其目的是为了下次遇到同样的句子时,能够直接从存储器中再次取出,免去了重复性的工作,从而提高了整个系统的翻译效率。一般而言,发现语句对采用的是模糊匹配算法,用户可自行定义匹配权值。
另外,Web Translator为用户提供了可对电子词典编辑的功能,用户能够添加电子词典中不存在的单词与短语,从而提高翻译效率。
除了上述两种系统外,CompuServe公司提供了环球公众论坛(World
Community Forum)线上翻译服务。CompuServe拥有三百万用户会员,遍布世界150多个国家,是全球最大一家信息服务公司。它于1994年引进Intergraph的软件系统并开拓线上机译服务,1995年2月创立环球大众论坛,为其成员交流政治观点、发表对交互文化的个人见解、以及发布体育旅游信息提供了方便。目前,论坛参与者可用英、法、德、西班牙语中的任何一种语言在网上交谈,具体讲,一位讲英语的论坛成员登录到英语论坛后,池既可以阅读英文信息,也可以及时发表自己的观点。一旦他发表了观点,这些用英文写成的观点就立即被收集起来,并翻译成法、德、西班牙三种语言文本,三分钟后,便可显示在法、德、西班牙文论坛上。当然,考虑到译文质量,在显示译文的同时,也保留了源语言文本的拷贝。为避免歧义,论坛成员可随时阅读源语言文本。在论坛创建的头四个月,已有一万五千人次在网上发表了意见,每一夭论坛通过机器翻译的信息有将近三万词条。
除了上述已在网上提供服务的文本翻译系统,基于语音(Speech
to Speech)实时处理的线上机器翻译系统也是研究的热点。研究人员从早期机器翻译研究中吸取了重要教训:通用高质量机器翻译系统在目前只是一个梦想。所以大多数研制的语音机器翻译系统只能翻译一定主题域的语音。
1993年,在德国联邦工业部(German Federal
Ministry)主要资助下,30多所德国、美国、日本大学研究机构及工业企业参与了一个名为Verbmobil的语言机器翻译研究计划。此计划的目的是把基于一定主题域的自然语音自动翻译成另一种自然语音,并且与说话者
无关。1995年,第一台完全集成化的Verbmobil系统成功地把一段基于一定主题域的德语口语翻译成清楚的英语口语输出。到“一期工程”结束时,Verbmobil的语音识别率已达到73.3%。1996年,随着Verbmob11原型机实现了一段基于一定主题域的日语到英语的口语自动翻译,Verbmobil计划进入了“二期工程”。此计划的“二期工程”准备扩大主题域范围,增加可译语言对,并能识别不一致信息,如“2月31日”,“早上16:00点”等。
与手写文本相比,口语不存在标点符号,重读与短语代替了句号和逗号。另外,口语中存在大量如“哼,啊”等毫无意义的语气词。如何辨别出一个完整的句子,如何过滤掉无意义单词,都是语音实时线上机器翻译软件要解决的难点。
|