SEO内容采集解决方案-新闻资讯-放心投官网

一、采集

流程原理

目前采集通常有两种方式：

1.定向采集：按原点分类，设定条件采集,有站有什么就采什么，再过滤处理！

2.泛采集：通用爬虫采集

我们这里用的是：据于关键词基础上，指定Ｎ个站点，定向采集

原理：借用搜索引擎指令　site: domain keyword

原理图

二、内容处理

1.标题

方法一：精简原始标题

步骤如下：

对原始标题分词

去除停止词

获取词缀词性

去除修饰词，如形容词、副词、介词…，保留原标题主谓宾，获取句子主干

通常基于jieba分词或nltk实现，要删除的修饰词可以预先分析大量的标题来提取，追加到字典中。。

如:阿里巴巴部分产品页的title就是这样处理的，把用户发布的产品名中一些无关大雅的词缀干掉，提取主干放到title标签中

方法二：插入搜索词

步骤如下：

搭建xunsearch或其他的开源搜索，对采集标题创建索引

用提前准备好的搜索词（就是要做的那些词）依次到搜索接口中搜索

对搜索结果中出现的标题前方插入当前搜索词

我要做的词有“电动车电池正确使用方法”

比如匹配出来原标题

“不要再让过度放电毁了你的电动车电池”

“黄山一男子用拆线搭线的方式偷走电瓶车”

………………..

则标题前插入关键词：

“[电动车电池正确使用方法] 不要再让过度放电毁了你的电动车电池”

或“[电动车电池正确使用方法] 黄山一男子用拆线搭线的方式偷走电瓶车”

当然也可以：“{插入的搜索词}{精简后的原始标题}”

方法三：插入当前标题已包含搜索词的衍生词、相关搜索词

步骤如下：

抓取标题已包含搜索词的百度相关搜索或下拉框，

标题中插入相关搜索或下拉框的词

如：“[{百度相关搜索词1}]{原始标题}”、“[{下拉框推荐词1}{原始标题}]”

也可以: [{百度相关搜索词1}]{精简后的原始标题}”、“[{下拉框推荐词1}{精简后的原始标题}]”

2.正文内容

正文的处理主要是针对重复性，尽量降低与原始内容的相似性

正文开头、结尾处插入随机文本

方法一：提前准备一些能够通用的文本模板，随机调用，替换关键词

方法二：正文中随机截一段文字

方法三：随机调出Ｎ条相关文章标题和概要，放到首尾

修改正文内容

基于textrank算法提取文本摘要，放到正文前面。

为了防止字数过少，可以提前用k-means和tf-idf，找出当前文章的相似文章，可以提取它们正文字数最长的段落的摘要，加到当前的文章中用作字数上的补全。

聚合页面

聚合页面就是由词根挖出来的10个扩展词，每个扩展词生成一个列表页或其他形式的聚合页面，页面内容就是对应这个词采集的20篇内容。

这是最简单的模型

通常模型

以扩展词”电动车电池正确使用方法”为例子

聚合页面要采集内容有：

怎样保护充电器吗？

怎样延长蓄电池寿命？

电动车电池充电环境要求？

这种模型通常机器+工人先预设好模型再采集内容，再处理组合。

案例：www.tuniu.com/g1708/tipnews-153801/

扩展词：九江适合逛街的地方

标题：关键字组合，

内容：聚合页面，内容组合

[来源：方法营销微信：emways]

SEO内容采集解决方案

相关资讯:

Lorem ipsum dolor sit amet, consectetur

Elit Assumenda vel amet dolorum quasi

Debitis nihil placeat, illum est nisi

Total Downloads

Clients