解密谷歌搜索引擎平台和大数据分析技术

编辑:西和西 校对排版:吴双

众所周知,Google存储着世界上最庞大的数据量,数千亿个网页、数百亿张图片。如果没有数据的支持,谷歌的搜索、播放音乐、图形搜索、翻译、广告、趋势分析等产品将不复存在。但是数据本身并不能创造出伟大的产品,它们需要有更多外部条件才能支持各类产品快速稳定的运行。谷歌自己打造硬件、自己组建硬件系统,并且自己开发分布式系统软件,通过基础架构和系统设计使庞大的数据实现真正的价值。

一、谷歌搜索引擎平台和大数据分析核心技术

Google开发出的定制软件包括用于数据密集型应用的分布式文件系统GFS:Google File System;用于简化处理和创建大规模数据集的编程模型MapReduce;用于存储和管理大规模非结构化数据的BigTable;分析分布式运算环境中大规模数据集的解释编程语言Sawzall;为处理分布式系统队列分组和任务调度的Google Workqueue等。

GFS、MapReduce和BigTable均由Google在2003年到2004年间发布。从2009年起,谷歌开始尝试新一代技术来优化各项系统和应用,替换原来的系统。Caffeine、Pregel、Dremel的出现再一次影响着全球大数据技术的发展潮流。

Caffeine是基于Percolator的增量处理索引系统,它取代了MapReduce批处理索引系统,比MapReduce批处理索引系统搜索速度更快。专为BigTable设计的分布式存储Colossus,也被称为GFS2(二代Google文件系统),它专门应用于建立Caffeine搜索索引系统。

Pregel主要用来绘制大量网上信息之间关系的“图形数据库”。

Dremel是一种分析信息的方式,可跨越数千台服务器运行,允许“查询”大量的数据,如Web文档集合或数字图书馆,甚至是数以百万计的垃圾信息的数据描述。

二、谷歌的大数据智能应用服务

Google提供的大数据分析智能应用包括客户情绪分析、交易风险(欺诈分析)、 产品推荐、消息路由、诊断、客户流失预测、法律文案分类。

一些典型应用如下:

1. 基于Map Reduce,Google的传统应用包括数据存储、数据分析、日志分析、搜索质量以及其他数据分析应用。

2. 基于Dremel系统,Google推出其强大的数据分析软件和服务—— BigQuery,它也是Google自己使用的互联网检索服务的一部分。Google已经开始销售在线数据分析服务,试图与市场上类似亚马逊网络服务(Amazon Web Services)的企业云计算服务竞争。这个服务,能帮助企业用户在数秒内完成万亿字节的扫描。

3. 基于搜索统计算法,Google推出搜索引擎的输写纠错、统计型机器翻译等服务。

相关资讯: