1. 首页
  2. 王海SEO
  3. SEO优化百科

百度搜索:蜘蛛爬行与抓取的工作原理

什么是搜索引擎蜘蛛?

搜索引擎蜘蛛,又叫网络爬虫百度蜘蛛baiduspider,谷歌机器人:Googlebot

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

百度搜索:蜘蛛爬行与抓取的工作原理

 

爬虫工作原理以及关键技术概述

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

 

爬虫跟踪链接的工作原理

第一种:深度优先,举个例子:蜘蛛进入首页,然后找到某个栏目链接,然后进入该栏目,然后进入某个页面,再通过锚文本返回

第二种:广度优先,举个例子:蜘蛛进入首页,然后找到首页所有的栏目和首页的内链,然后开始跟踪每个页面,再进入第一种情况

针对不同的站点,蜘蛛根据算法自己决定了采用哪种优先规则,站长需要具备足够的实战经验,才能控制这个优先顺序

 

爬虫避免重复原理

蜘蛛每进行一次爬行,就会记录URL地址,并辨别该内容的更新时间、数据变化或区别等,然后会根据算法去重,然后统一到地址库

 

爬虫服务器存储文件

一般指的就是:【百度快照】,也就是蜘蛛收集数据后,进行的快照存储,该快照储存的是html源代码,一般不会存储css,js或jpg等文件

所以,有足够的经验的站长,一般会选择把文件储存在自己的服务器或者cdn,一般不会使用相对路径,更喜欢绝对路径

其实目的,就是为了更加的吻合【百度快照】的规则,提升自身站点的pr值和用户体验,让蜘蛛给予更好的评分

 

爬虫内容处理原理

爬虫会对所有收集的内容进行,比如是否原创(不同生态的不受影响),比如微信生态或微博生态的,嫁接到站点,就是远程了

内容的差异化辨识,这里更多的,强调的是内容的价值、质量、区域化等特征

 

怎样主动吸引蜘蛛?

核心一点,就是要主动向蜘蛛示好,方式方法有千万种,如果要有区别的话,核心就是:白帽、黑帽、友链等等

会收到以下核心因素的影响:

第一种,网页或页面权重,比如域名权重、站点pr值等等;

第二种,页面更新率,更新率会影响蜘蛛对你站点的友好度加分;

第三种,外部链接导入数量,这里不仅仅是友情链接,还有很多方式;

第四种,内容输出页面与首页的距离

 

SEO的核心其实只有一点:用户体验

准确的说,SEO不是一门学术,是一门艺术。也就是好的内容、好的站长习惯、好的途径给搜索引擎更好的印象,给用户更高的体验度。

百度搜索:蜘蛛爬行与抓取的工作原理

 

王海微信/QQ同号:4008470 站友交流QQ群:616818