
出版社: 南京大学
原售价: 88.00
折扣价: 58.96
折扣购买: 数字人文导读
ISBN: 9787305253126
关于编者 梅丽莎? 特拉斯 英国爱丁堡大学艺术人文社科学院数字文化遗产教授,爱丁堡未来研究院创始人,图灵研究院成员,伦敦大学学院数字人文中心荣誉教授。 朱莉安?奈恩 英国伦敦大学学院数字信息研究教授,数字人文教学主任,数字人文中心主任。 爱德华?凡浩特 比利时皇家荷兰语言和文学学院研究与出版总监, 《人文数字学术》(Digital Scholarship in the Humanities)期刊主编,英国伦敦大学学院数字人文中心研究员。 高瑾 英国伦敦大学学院数字人文中心讲师,英国国立维多利亚与艾伯特博物馆数据标准编辑及项目协调。 关于译者 陈静 南京大学艺术学院副教授,上海市“数字人文资源建设与研究”重点创新团队成员, 《零壹LAB》创始人及主编。 王晓光 武汉大学信息管理学院教授,文化遗产智能计算教育部哲学社会科学实验室主任,武汉大学数字人文研究中心主任。 王涛 南京大学历史学院教授,数字史学研究中心主任,中国德国史研究会副会长。 高瑾 英国伦敦大学学院数字人文中心讲师,英国国立维多利亚与艾伯特博物馆数据标准编辑及项目协调。 徐力恒 香港城市大学中文及历史学系助理教授,《零壹LAB》创始人及主编。曾任牛津大学讲师、哈佛大学博士后研究员。 顾佳蕙 杜克大学硕士研究生毕业,主要方向为文化研究。
(摘自本书第六章 地狱之门:数字/人文/计算的历史和定义) 3. 机器翻译 机器翻译是(Machine Translation, MT)“使用计算机将一种自然语言的文本翻译为另一种自然语言”(Hutchins, 1986, p.15)。支持开展“机器翻译”研究的理由有实用和交际的(人们不得不用他们不了解的语言阅读文件并进行交流)、学术和政治的(通过消除语言障碍开展国际合作和实现全球化,以促进和平,增进对发展中国家的了解),军事的(弄清敌人掌握的信息)、学术的(研究语言和思想的基本机制,挖掘计算的可能性和制约性)和经济的(出售成功的产品)。 20世纪50年代初期,理查德·H. 瑞奇思(Richard H. Richens, 1918—1984) 在MT领域的研究综述。和安德鲁·D. 布斯(Andrew D. Booth, 1918—2009)使用穿孔卡片(Richens and Booth, 1952)对科学摘要进行了逐词翻译(word-for-word translations)的实验论文《机械化翻译的一些方法》(“Some methods of mechanized translation”)写于1948年,但直到1955年才发表(Sparck Jones,2000,p.263)。这篇论文出现在了1952年6月份在麻省理工学院举办的首届机器翻译大会(Conference on Mechanical Translation)上。直到那时,翻译自动化的问题仅仅是从机械术语的角度来考虑的:开发一套词典查询系统(a dictionary lookup system),以帮助人工译员。伦敦大学伯克贝克学院(Birkbeck College)的晶体学家安德鲁·布斯很可能是第一个提出电子计算机也许可以用于“机器翻译”的人。在1948年2月12日递交给洛克菲勒基金会的报告中,他写道: 在电子计算机的可能性应用上,一个结论性例子就是将其应用于两种语言之间的翻译。我们细致地思考过这个问题,现在已经清楚:机器可以通过不对其进行任何修改就实现翻译的功能(引自Weaver,1965 [1949],p.19)。 在普林斯顿高级研究院做洛克菲勒研究员时,布斯听命于沃伦·韦弗。早在1946年,后者已经与布斯就使用自动数字计算机实施两种语言间的机械翻译进行过数次谈话(Booth & Locke, 1965[1955], p.2;Booth, 1980, p.553;Hutchins, 1986, p.24)。在做研究员期间,布斯和后来成为他妻子的助手凯瑟琳· 布里顿(Kathleen Britten,b.1922)开发了一套详细的编码体系,用于在计算机的存储器中存储词典,而后通过标准电传输入可在词典中进行检索。这个构思最早可以追溯至1946年在自动计算机上实现了词典翻译(Booth, 1958, pp.929)。 韦弗的报告《翻译》(“Translation”)于1949年7月15日出版。布斯的研究以及他在战时作为密码分析员的经历为这份报告奠定了基础(Weaver,1965 [1949])。《韦弗备忘录》(Weaver Memorandum)在20或30名“语言学学生、逻辑学者和数学家”(Weaver,1970,p.107),以及多达200名不同领域的学者(Locke,Booth,1965 [1955],p.15)中间传播。正是由于这份备忘录,多所高校启动了科研项目,产生了关于“机器翻译”所涉问题的一些早期著作。这些问题包括词语的模糊性、句法的语义功能,以及如何解决不同语言中的词序问题。 1952年,18名学者聚首于MIT举办的第一届机器翻译“国际”会议,布斯是唯一的非美国籍代表。随后,大约40名语言学者参加了同年在伦敦召开的国际语言学大会(International Linguistics Congress)。一年后,“机器翻译”首次出现在由布斯伉俪编写的学术教材《自动数字计算器》(Automatic Digital Calculators)(Booth and Booth,1953)中。该书的目标读者是计算机科学家,其中的一章《计算机器的一些应用》(“Some applications of computing machines”)详细地讨论了“机器翻译”这本书重印了两次,分别是在1956年和1965年,后于1957年翻译为俄文。1954年,一场大力宣传的展示会在IBM总部举办。展示会精选49句俄语样句、由250个选自不同领域的俄语单词及其对应的英语所组成的词汇表,以及6条句法规则。IBM的新闻稿上写道:“一个完全不懂苏联人语言的小女孩在IBM的卡片上打出了俄语信息。机器的‘大脑’飞速运作,以每秒两行半的速度在一台自动打印机上给出了对应的英文翻译”。 同年,哈佛大学的安东尼·奥廷格(Anthony Oettinger, b.1929)发表了世界上第一篇有关“机器翻译”的博士论文(Oettinger, 1954),杂志《机器翻译》(Mechanical Translation)也首次登台亮相。 1955—1966年,领域内部以小组为单位进行划分,例如划分为主攻字典、词典和语义问题的小组和主攻句法问题的小组;采用实践研究法的小组(主要在英国)和采用理论研究法的小组(主要在美国);以及研究短期操作系统的小组和研究高质量长期操作系统的小组。这几年中,针对“机器翻译”开展了十几次重要的大会、聚会和研讨会,“机器翻译与计算语言学协会”(Association of Machine Translation and Computational Linguistics,AMTCL)也于1962年6月13日成立。除美国和英国外,保加利亚、加拿大、前捷克斯洛伐克、法国、以色列、日本、前苏联及后来成立的独立国家等都开展了相关研究。 虽然在1960年6月美国众议院科学和航天委员会编制的报告中,美国的资助机构已经对“机器翻译”之于“我国信息和科学领域的总体发展”的重要性表示了认可(Hutchins,1986, p.159),但6年后一家在资助机构的要求下成立的独立咨询委员会所给出的结论,给美国对“机器翻译”的研究经费资助画上了句号。1966年出版的声名狼藉的ALPAC自动语言处理咨询委员会。报告《语言和机器:翻译和语言学中的计算机》(Language and Machines: Computers in Translation and Linguistics)对自动翻译的需求、成本和表现进行了批判,甚至提议说:既然英语是科学领域中的优势语言,那么与提供翻译服务相比,让俄语文章的重度使用者学会俄语会更划算。报告在最终建议中列出,应该将资金用于开发人工译员的辅助机器和“计算语言学”来提高翻译质量,而这已经超出了“机器翻译”的范畴。ALPAC的报告终结了对完美翻译的研究,并将自己的理想归于乌托邦的范围。对宏观意义上的语言学,尤其是“计算语言学和人文计算”来说,这份报告改变了人们对未来的语言研究项目的思考角度,或者用维克多·英格维(Victor Yngve)的话来说就是: 哲学是语言学的发源地,但不是它的未来;语言学的未来在标准科学中,现在它可以自信地朝这个方向发展。这要求语言学要最终意识到,一位科学语言学家真正的研究对象是以其他方式说话、理解和交流的人群以及真实世界中的其他相关方面。(Yngve,2000,p.69)。 罗伯托·布萨(1913—2011)似乎认同英格维的观点,他认为“机器翻译”研究中的主要问题不是没有足够的计算机来处理人类的语言,而是人对人类语言的理解不够全面(1980, p.86)。 4. 词汇文本分析 “机器翻译”在人文数据的电子处理中参与度极高。早期有关“机器翻译”的文章中提到,对索引、频率列表和词形还原的使用必不可少。按照安东尼奥·扎姆波利(Antonio Zampolli, 1937—2003)的话说,这些都是“词汇文本分析”(Lexical Text Analysis, LTA)的典型产品(Zampolli, 1989)。针对这一点,在“机器翻译”的相关书籍中找到有关“文学研究中的计算机”的文章也就没什么奇怪的了(Booth,1967)。 迈克尔·列文森(Michael Levison)已经对20世纪50年代和60年代初,“机器翻译”和“词汇文本分析”学者间的合作进行了报告。1958年,他以博士生的身份加入了布斯的实验室。虽然布斯在当时的以人文学为基础的工作基本上都属于“机器翻译”领域,但20世纪50年代中期以后,人们对计算机在其他语言学中的应用产生了浓厚的兴趣(Booth et al.,1958)。20世纪60年代早期出现了文本、文体学和索引制作的统计分析项目(Levison,1962)。1967年,列文森在《文学研究中的计算机》(“The Computer in Literary Studies”)一文中,对可以成功应用计算机的文学问题进行了分类描述:索引、术语表、作者判断、文体研究、相关年表、莎草纸的碎片问题,甚至还有数字图书馆的雏形——磁带柜。“络绎不绝的拜访者”都来“寻求文学和语言学问题上的帮助”(Lessard and Levison,1998,p.262),他们频繁造访布斯的实验室,对上述文学问题进行研究,甚至有几位地质学家提议用模拟的方式研究是否可能对“波利尼西亚人漂流航行后的定居”作出解释(ibid)。 尽管布斯在这些项目取得成果前就离开了实验室,但毫无疑问是他的灵感和声誉促成了这些合作。甚至可能布斯的两位学生,莱昂纳多·布兰伍德(Leonard Brandwood)和乔治·克利夫(John Cleave)是首次将计算机应用于人文学科中非语言问题的博士生。布兰伍德主要研究柏拉图著作的年表和索引(Booth et al.,1958, pp.50-65),而克利夫则负责布莱叶点字法(Braille)的机械转录(ibid, 1958,pp.97-109)。 不过,早期“词汇文本分析”最重要的项目之一是罗伯托·布萨的《托马斯著作索引》(Index Thomisticus),一部制作了托马斯·阿奎那(Thomas Aquinas)全集中所有单词的索引。虽然首次提到这个项目的是刊登在1950年1月份《反射镜》(Speculum)上的一篇短小的项目描述(Busa, 1950),但布萨自己说最初想到用现代机械技术进行书面文本的语言学分析是在1941或1942年(2004b,p.xvi;2002,p.49),当时他刚刚开始博士阶段的研究,以及1946年他完成了博士论文,寻找下一个研究项目的时候(1980, p.83)。事实上布萨(1949)写博士论文的时候没有借助,也没有提到任何计算机技术。然而在1951年,布萨(1951)与纽约IBM的员工进行合作,为托马斯·阿奎那的诗自动编制索引,这是第一份由穿孔卡片机打印成的单词索引。不过这一次对概念的论证也没有涉及任何的计算和编程。其主要创新点在于布萨洞察到商用计算机器可以为人文学科带来好处。1951年的项目研究为人们带来了6种学术工具:单词的字母频率表、单词的倒序频率表、词目中单词的字母频率表、词目、单词索引;以及“前后文关键词索引”(KWIC Concordance)(Winter,1999)。 布萨对完整的《托马斯著作索引》所需要的穿孔卡片进行了计算,其重量将达到500吨,需要长90米、深1米、高1.2米、体积108立方米的空间。1975年《托马斯著作索引》完成,逐渐在56册书中占用65 000页篇幅(Busa,1974—1980),共对约10 631 973个符号进行了加工处理。整个加工过程包括输入、校对,以及利用词法水平下的索引和编码对价值进行说明——用布萨(2002,2004a)的术语说就是“内部超文本”。这些工作由在布萨自己的培训学校(在1954—1967年办学)接受培训的一组穿孔机操作人员完成(1980,p.85)。 虽然布萨在与IBM的密切合作中运用到了穿孔技术,但约翰W.埃里森(John W. Ellison)也利用雷明顿·兰德公司(Remington Rand)所提供的计算设施,即磁带技术和通用自动计算机第一代大型计算机(UNIVersal Automatic Computer),完成了他的《修订标准版本圣经计算机索引》(Computerized Concordance to the Revised Standard Version of the Bible)。故事大概是这样的:大约在1954年,布萨遇见了埃里森, 向他在计算研究中取得的成果道贺,然后回到IBM将穿孔卡片都转移到了磁带上,并在1957年《死海古卷》(Dead Sea Scrolls)项目的出版中使用了计算机技术和编程。对整本《托马斯著作索引》,布萨(2004b,p.xvii)用了1 800卷磁带,每一卷长2 400尺,总长达到1 500千米。 埃里森追溯他最初想到使用“现代机械设备”是在1945年的时候,当时他意识到“拥有两三个博士学位”的杰出学者“在研究手稿的时候,基本上都要依靠他们的手指”(Ellison, 1965, p.64)。1950年,他申请使用哈佛计算实验室进行计算,1951年得到批准。他验证概念的方法是对圣路加福音(St.Luke gospel)的309份手稿进行稿内校勘,打印出来后与1952年或1953年用马克四号(MARK IV)计算机制作、分为8类异文的标准文本进行对比。这是第一份由计算机执行并打印的手稿校勘。 在1966年声名狼藉的ALPAC报告出版前,“计算语言学”和“词汇文本分析”仍属于同一领域,利用统计分析创建索引、语汇索引、语料库和词典。不过自那时起,“计算语言学”就开始使用象征法,摒弃了一直是“人文计算”核心的统计分析法。