大数据的简单算法与小数据的复杂算法

最初，计算机研发人员打算将语法规则和双语词典结合在一起。1954年，ibm以计算机中的250个词语和六条语法规则为基础，将60个俄语词组翻译成了英语，结果振奋人心。ibm701通过穿孔卡片读取了一句话，并将其译成了“我们通过语言来交流思想”。在庆祝这个成就的发布会上，一篇报道就有提到，这60句话翻译得很流畅。这个程序的指挥官利昂?多斯特尔特表示，他相信“在三五年后，机器翻译将会变得很成熟”。
事实证明，计算机翻译最初的成功误导了人们。1966年，一群机器翻译的研究人员意识到，翻译比他们想象的更困难，他们不得不承认自己的失败。机器翻译不能■只是让计算机熟悉常用规则，还必须教会计算机处理特殊的语言情况。毕竟，翻译不仅仅只是记忆和复述，也涉及选词，而明确地教会计算机这些非常不现实。
在20世纪80年代后期，ibm的研发人员提出了一个新的想法。与单纯教给计算机语言规则和词汇相比，他们试图让计算机自己估算一个词或一个词组适合于用来翻译另一种语言中的一个词和词组的可能性，然后再决定某个词和词组在另一种语言中的对等词和词组。
20世纪90年代，ibm这个名为candide的项目花费了大概十年的时间，将大约有300万句之多的加拿大议会资料译成了英语和法语并出版。由于是官方文件，翻译的标准就非常高。用那个时候的标准来看，数据量非常之庞大。统计机器学习从诞生之日起，就聪明地把翻译的挑战变成了一个数学问题而这似乎很有效。计算机翻译能力在短时间内就提高了很多。然而，在这次飞跃之后，丨bm公司尽管投入了很多资金，但取得的成效不大。最终，ibm公司停止了这个项目。
2006年，谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源，并让人人都可享受这些资源”这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库，也就是全球的互联网，而不再只利用两种语言之间的文本翻译。
为了训练计算机，谷歌翻译系统会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上寻找对译文档，还会去寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本。它甚至会吸收速读项目中的书籍翻译。谷歌翻泽部的负责人弗朗
兹?奥齐是机器翻译界的权威，他指出，“谷歌的翻译系统不会像candide—样只是仔细地翻译300万句话，它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。”如果不考虑翻译质量，上万亿的语料库就相当于950亿句英语。
尽管其输入源很混乱，但较其他翻译系统而言，谷歌的翻译质量相对而言还是最好的，而且可翻译的内容更多。到2012年中，谷歌数据库涵盖了60多种语言，甚至能够接受14种语言的语音输入，并有很流利的对等翻译。之所以能做到这些，是因为它将语言视为能够判别可能性的数据，而不是语言本身。如果要将印度语译成加泰罗尼亚语，谷歌就会把英语作为中介语言。因为在翻译的时候它能适当增减词汇，所以谷歌的翻译比其他系统的翻译灵活很多。
谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制，而是因为谷歌翻译增加了很多各种各样的数据。2006年，谷歌发布的上万亿的语料库，就是来自于互联网的一些废弃内容。这就是“训练集”，可以正确地推算出英语词汇搭配在一起的可能性。
谷歌公司人工智能专家彼得?诺维格在一篇题为《数据的非理性效果》的文章中写道，“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”他们就指出，混杂是关键。

大数据的简单算法与小数据的复杂算法

VIP推荐