搜索引擎工作过程之索引

搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。今天继续大家分享:索引。

索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理。

01-提取文字

除去html代码,提取可见文字,mate标签中的文字、图片和flash的alt文字链接锚文等等。

02-中文分词

分为基于词典匹配和基于统计匹配。

03-去停止词

去掉页面内容中会出现大量高频率的助词(的、地、得);叹词(啊、哈、呀);介词(但、以、却),减少无谓的计算量。

04-消除噪声

根据html标签对页面分块,区分页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。

05-去重

对页面特征关键词利用算法(细小变化导致计算结果的巨大变化),去除重复内容,简单的加助词、拼凑段落。

06-正向/正排索引

经过文字提取、分词、消噪、去重之后,得到的就是反应页面主体内容的、以词为单位的内容,然后将索引词表存到索引库,每个文件里有N个词,一个文件重点针对一个词索引。

关键词列表:网页正文信息在经过切词系统处理后,形成了关键字列表,关键字列表中的每条记录都包含该关键字所在的关键字编号、网页编号、关键字出现的次数以及关键字在文档中的位置等信息。

07-倒排索引

当用户搜索正向索引文件中的某个词,而不是搜索正向索引文件中的核心词时,索引词表将不被快速索引的作用,故还需要依文件中的每个次建立倒排索引库。

08-链接关系计算

计算出页面上的链接指向了哪些其他页面,有哪些导入链接、锚文字,了解权重。

09-特殊文件处理

除了html外,还有pdf、word、wps、xls、ppt等。

爬行和抓取原始页面是不能直接参与排名的,需要做相应预处理,对所收集到的信息进行整理、分类,以备排名程序用。

相关资讯: