上篇文章我们大概介绍了搜索引擎工作原理，与我们关系最大的还是搜索引擎的预处理规则，他的规则是什么呢?

搜索引擎工作原理—预处理

搜索引擎蜘蛛抓取的原始页面，并不能直接用于查询排名处理，搜索引擎数据库中的页面都在数万亿级别以上，用户输入搜索词后，靠排名程序实习对这么多页面分析相关性，计算量太大，不可能在一两秒内返回结果，所以必须对抓取来的页面进行预处理，为最后的查询排名做好准备。

搜索引擎预处理-九大规则

1、提取文字

2、中文分词

3、去停止词

4、去处噪音

5、去重

6、正向索引

7、倒序索引

8、链接关系计算

9、特殊文件处理

搜索引擎工作原理（预处理）

1、提取文字

现在的搜索引擎还是以文字内容为基础，蜘蛛抓取到的页面中的HTML代码，除了用户在浏览器上可以看到的可见文字处，还包含了大量的HTML格式标签，JavaScript 程序等无法用于排名的内容，搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序，提取出可以用于排名处理的网页面文字内容。

比如这段代码：

Title=“Permanent Link to 今天愚人节哈”>今天愚人节哈

除去HTML代码后，剩下的用于排名的文字只有这一句：今天愚人节哈

2、中文分词

分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔，搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符，一个句子中所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个词组成一个词，哪些字本身就是一个词。比如“公务员考试”将被分词为“公务员”和“考试”两个词。

中文分词方法基本上有两种，一种是基于词典匹配，另一种是基于统计。

基于词典匹配：将待分析的一段汉字与一个事先选好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已有一词条匹配成功，或者说切他出一个单词。

基于统计匹配：分析大量文字样本，计算机出字与字相邻出现的统计概率，几个字相邻出现越多，就越可能形成一个单词。基本统计的方法的优势是对新出现的词反应更快速，有利于消除歧义。

3、去停止词

无论是英文还是中文，页面内容中都会有一些出现频率很高，却对内容没有任何影响的词，如“的”、“地”、“得”之类的助词，“阿”、“哈”、“呀”之类的感叹词，“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词，因为它们对页面的主要意思没什么影响。英文中的常见停止词有the ,a ,an ,to ,of 等。

搜索引擎在索引页面之前会去掉这些停止词，使索引数据主题更为突出，减少无谓的计算量。

4、去除噪音

搜索引擎需要识别并消除这些噪声，排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块，区分出页头、导航、正文、页脚、广告等区域，在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后，剩下的才是页面主体内容。

5、去重

去重的基本方法是对页面特征关系词计算指指纹，也就是说从页面主体内容中选取最有的一部分关键词（经常是出现频率最高的关系词），然后计算这些关键词的数字指纹。这些关键词选取是在分词、去停止词、消噪之后。通常选取10个特征关键词就可以达到比较高的计算准备性，再选取更多词对去重准确性提高的贡献也就不大了。

简单的增加“的”“地”“得”调换文字段落的位置等伪原创的方法并不能逃避搜索引擎去重的算法。

6、正向索引

7、倒序索引

8、链接关系计算

页面上有哪些链接指向哪些其他页面，每个页面有哪些导入链接，链接使用了什么锚文字，这些复杂的链接指向关系形成了网站和页面的链接权重。

9、特殊文件处理

除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容，也不能执行脚本和程序。

虽然搜索引擎在识别图片及从Flash中提取文字内容方面有些进上，不过距离直接靠读取图片、视频、Flash内容返回结果的目标还很远。对图片、视频内容的排名还往往是依据与之相关的文字内容。

以上就是SEO网站优化搜索引擎预处理规则，对SEO网站优化感兴趣，欢迎持续关注。每天更新……

自建站卖家如何提升网站流量？外媒总结推荐5款谷歌SEO工具

2018-07-23

想要做好谷歌SEO，提高网站排名增加流量，做好搜索引擎优化，必须学会利用SEO工具。1、ChromeLighthouseLighthouse是Chrome团队的一个开源项目，能对网站的性能进行测评，同时还能生成一份详尽的报告。

提升免费流量：SEO搜索标题词根优化

2018-07-23

而曝光展现的来源一般分为几个基本渠道，第一，手淘首页有好货，必买清单，生活研究所等等内容渠道推荐，第二，手淘。

seo用户体验，2016网站优化得分排名将是它为主

2018-07-23

seo用户体验，2016网站优化将是它为主2016年5月年百度魏泽西事件的印象最深，影响波及也很广，不管是付费推广还是seo，感觉越来越难做了，和许多同行交流或者在一些平台的话题讨论seo的话题，可能许多SEOER都感觉特别是新手做SEO已经没什么出路了。

SEO优化提升网站收录技巧大全

2018-07-23

网站优化的好坏，直接可以从网站收录情况来看，但是网站收录又是我们SEO优化人员苦恼的事情，那么怎么提高网站收录呢。

网站优化SEO高级搜索命令大全

2018-07-23

1、双引号把搜索词放在双引号中，代表完全匹配搜索，也就是说搜索结果返回的页面包含双引号中出现的所有的词，连顺序也必须完全匹配。百度和Google 都支持这个指令。例如搜索： “企业SEO”2、减号减号代表搜索不包含减号后面的词的页面。

搜索引擎网站收录SEO提交大全

2018-07-23

个人站长是一个辛苦的职业，不仅要了解服务器建站技术，还要知道推广seo。下面是我总结的对seo推广有用的网站。希望能对站长有所帮助搜索引擎提交入口搜狗URL提交：http://zhanzhang.sogou.com/index.

干货 SEO网站优化，搜索引擎预处理规则

搜索引擎工作原理—预处理

Title=“Permanent Link to 今天愚人节哈”>今天愚人节哈

相关资讯:

Lorem ipsum dolor sit amet, consectetur

Elit Assumenda vel amet dolorum quasi

Debitis nihil placeat, illum est nisi

Total Downloads

Clients