《网站运营直通车——7天精通SEO(白金版)》_吴伟定,姚金刚,周振兴,吕令建

《网站运营直通车——7天精通SEO(白金版)》吴伟定,姚金刚,周振兴,吕令建著,通过清华大学出版社出版销售,2. 百度蜘蛛主要抓取策略图 7-1 看似简单,但其实百度蜘蛛在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实

网站运营直通车——7天精通SEO(白金版)

出版社:清华大学出版社
ISBN:9787302542070
版次:1
商品编码:12610411
品牌:清华大学出版社(TSINGHUAUNIVERSITYPRESS)
包装:平装
开本:16开
出版时间:2019-12-01
用纸:胶版纸
页数:265
字数:285000

《网站运营直通车——7天精通SEO(白金版)》_吴伟定,姚金刚,周振兴,吕令建

内容简介

2. 百度蜘蛛主要抓取策略
图 7-1 看似简单,但其实百度蜘蛛在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性,同时不给网站体验造成压力,会设计多种复杂的抓取策略。
1)抓取的友好性
互联网资源庞大的数量,要求抓取系统尽可能地高效利用带宽,在有限的硬件和带宽资源下尽可能多地抓取到有价值资源。这就产生了另一个问题——耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多地抓取到有价值资源的目的。
通常情况下,最基本的是基于 IP 地址的压力控制。这是因为如果基于域名,可能存在一个域名对多个 IP 地址(很多大网站)或多个域名对应同一个 IP 地址(小网站共享 IP 地址)的问题。实际工作中,往往是根据 IP 地址及域名多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度蜘蛛将优先按照站长的要求进行抓取压力控制。
对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜间抓取可能就会快一些,视具体站点类型而定,主要思想是错开正常用户访问高峰,不断调整。对于不同站点,也需要采用不同的抓取速度。
2)常用抓取返回码
下面简单介绍几种百度支持的返回码。
(1)404 代表 Not Found,认为网页已经失效,通常将在库中删除,同时短期内如果百度蜘蛛再次发现这条 URL 也不会抓取。
(2)503 代表 Service Unavailable,认为网页临时不可访问,通常在网站临时关闭,带宽有限时会产生这种情况。对于网页返回 503 状态码,百度蜘蛛不会把这条 URL 直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回 503,那么这条 URL 仍会被认为是失效链接,将之从库中删除。
(3)403 代表 Forbidden,认为网页目前禁止访问。如果是新 URL,百度蜘蛛暂时不抓取,短期内同样会反复访问几次;如果是已收录URL,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条 URL 也会被认为是失效链接,将之从库中删除。
(4)301 代表 Moved Permanently,认为网页重定向至新 URL。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用 301 返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。
3)多种 URL 重定向的识别
互联网中有一部分网页因各种各样的原因存在 URL 重定向情况,为了对这部分资源正常抓取,就要求百度蜘蛛对 URL 重定向进行识别判断,同时防止作弊行为。重定向可分为三类:HTTP30X重定向、Meta Refresh重定向和JS重定向。另外,百度也支持 canonical 标签,在效果上可以认为也是一种间接的重定向。
4)抓取优先级调配
由于互联网资源规模巨大且变化迅速,对于搜索引擎来说全部抓取并合理更新保持一致性几乎是不可能的事情,因此就要求抓取系统有一套合理的抓取优先级调配策略。该策略主要包括:深度优先遍历策略、宽度优先遍历策略、PR 优先策略、反链策略、社会化分享指导策略等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。
5)重复 URL 的过滤
百度蜘蛛在抓取过程中需要判断一个页面是否已经抓取过,如果还没有抓取则进行抓取网页的行为并记录在已抓取网址集合中。判断网页是否已经抓取其中涉及到最核心的功能是快速查找并对比,同时涉及到 URL 归一化识别,例如一个 URL 中包含大量无效参数而实际是同一个页面,这将视为同一个 URL来对待。
6)暗网数据的获取
互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据存在于网络数据库中,搜索引擎难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范以及孤岛等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台提交数据的方式来解决,例如“百度站长平台”“百度开放平台”等。
……

前言/序言

SEO 是网络营销不可或缺的营销手段,从各种营销方法来看,SEO 是性价比较高的营销方法之一,因此掌握此门技术已经成为众多网络营销人员的必修课。
中国的 SEO 行业是从 2002 年才真正开始的,那时候百度以及谷歌等搜索引擎已经开始流行,发展到现在,这个行业已经日趋成熟,且搜索引擎的算法也越来越稳定。因此,掌握好正规的、科学的 SEO 技术,对每一个营销人士都是非常有必要的。
本书包含了系统学习 SEO 的完整过程,全书共分为 8 章,分别是基础篇、站内篇、站外篇、高级篇、策略篇、专题篇、百度篇和案例篇,内容循序渐进,难度由浅至深,对于初学者,通过本书可以顺利迈进 SEO 的大门,并通过案例的详解进一步掌握 SEO 的精髓。
第 1 章是基础篇,主要讲解 SEO 的发展和现状,SEO 的作用、什么是 SEO等基本的 SEO 知识,同时还包括常用的搜索引擎指令和常见的 SEO 术语,让读者对搜索引擎有一个初步的了解。
第 2 章是站内篇,主要从网站内部讲解优化技巧与设计,包括首页优化、单页面优化等。
第 3 章是站外篇,主要讲解如何在网站之外进行优化,如何获取外链,如何进行口碑的提升等。
第 4 章是高级篇,主要讲解对 SEO 的流量分析与调控,以及如何处理常见的被惩罚问题。
第 5 章是策略篇,主要讲解各种 SEO 策略。策略是 SEO 很重要的内容,不管是对团队还是个人,各种 SEO 策略都有利于高效率和高质量地完成任务。
第6章是专题篇,主要讲解各种新的搜索引擎技术,如个性化搜索、整合搜索、
地域性搜索等。
第 7 章是百度篇,围绕百度搜索向读者介绍百度特有的一些算法和机制,便于读者更好地利用百度搜索来创造价值。
第 8 章是案例篇,讲解比较典型的几个 SEO 案例,让读者对网站分析和诊断有一个全面的了解。其中,电影网案例由高世鹏(具备多年的大型网站 CEO经验,在多家巨无霸上市公司做过 SEO,操盘的 SEO 项目多为大型公司网站)编写;去哪儿网案例由吕令建编写,环球网校案例由赵彦刚(时泽学院创始人,曾在中公网校、智联招聘、环球网校负责 SEO 及网站运营、品牌舆情、App 推广等相关流量、运营工作,百度站长学院、A5 站长网专栏作家)编写。
本书系统地讲解最新的 SEO 技术,这些技术都是未来搜索引擎的发展趋势,因此值得大家去关注、研究。

海计划公众号
(0)
上一篇 2020/03/08 22:15
下一篇 2020/03/08 22:15

您可能感兴趣的内容