SEO内容采集解决方案

一、采集

流程原理

目前采集通常有两种方式:

1.定向采集:按原点分类,设定条件采集,有站有什么就采什么,再过滤处理!

2.泛采集:通用爬虫采集

我们这里用的是:据于关键词基础上,指定N个站点,定向采集

原理:借用搜索引擎指令 site: domain keyword

原理图

二、内容处理

1.标题

方法一:精简原始标题

步骤如下:

对原始标题分词

去除停止词

获取词缀词性

去除修饰词,如形容词、副词、介词…,保留原标题主谓宾,获取句子主干

通常基于jieba分词nltk实现,要删除的修饰词可以预先分析大量的标题来提取,追加到字典中。。

如:阿里巴巴部分产品页的title就是这样处理的,把用户发布的产品名中一些无关大雅的词缀干掉,提取主干放到title标签中

方法二:插入搜索词

步骤如下:

搭建xunsearch或其他的开源搜索,对采集标题创建索引

用提前准备好的搜索词(就是要做的那些词)依次到搜索接口中搜索

对搜索结果中出现的标题前方插入当前搜索词

我要做的词有“电动车电池正确使用方法”

比如匹配出来原标题

“不要再让过度放电毁了你的电动车电池”

“黄山一男子用拆线搭线的方式偷走电瓶车”

………………..

则标题前插入关键词:

“[电动车电池正确使用方法] 不要再让过度放电毁了你的电动车电池”

或“[电动车电池正确使用方法] 黄山一男子用拆线搭线的方式偷走电瓶车”

当然也可以:“{插入的搜索词}{精简后的原始标题}”

方法三:插入当前标题已包含搜索词的衍生词、相关搜索词

步骤如下:

抓取标题已包含搜索词的百度相关搜索或下拉框,

标题中插入相关搜索或下拉框的词

如:“[{百度相关搜索词1}]{原始标题}”、“[{下拉框推荐词1}{原始标题}]”

也可以: [{百度相关搜索词1}]{精简后的原始标题}”、“[{下拉框推荐词1}{精简后的原始标题}]”

2.正文内容

正文的处理主要是针对重复性,尽量降低与原始内容的相似性

正文开头、结尾处插入随机文本

方法一:提前准备一些能够通用的文本模板,随机调用,替换关键词

方法二:正文中随机截一段文字

方法三:随机调出N条相关文章标题和概要,放到首尾

修改正文内容

基于textrank算法提取文本摘要,放到正文前面。

为了防止字数过少,可以提前用k-meanstf-idf,找出当前文章的相似文章,可以提取它们正文字数最长的段落的摘要,加到当前的文章中用作字数上的补全。

聚合页面

聚合页面就是由词根挖出来的10个扩展词,每个扩展词生成一个列表页或其他形式的聚合页面,页面内容就是对应这个词采集的20篇内容。

这是最简单的模型

通常模型

以扩展词”电动车电池正确使用方法”为例子

聚合页面 要采集内容有:

怎样保护充电器吗?

怎样延长蓄电池寿命?

电动车电池充电环境要求?

这种模型通常机器+工人先预设好模型再采集内容,再处理组合。

案例:www.tuniu.com/g1708/tipnews-153801/

扩展词:九江适合逛街的地方

标题:关键字组合,


内容:聚合页面,内容组合

[来源:方法营销 微信:emways]

相关资讯: