文章中心
文章中心
我们以信息质量为主,为客户展现真实可靠的数据
易懂SEO应用系统 > 文章中心 > SEO优化 > 百度公开课:网站抓取建设指南

百度公开课:网站抓取建设指南

网站专员SEO优化580人看过2021-6-07 08:00:40

百度爬虫工作原理

首先百度的抓取器会和网站的首页进行交互,拿到网站首页之后会对页面进行理解,理解包含(类型、价值计算),其次会把网站首页的所有超链接提取出来。如下图所示,首页的超链接被称为“后链”,等到下一轮抓取的时候,抓取器会继续和这些超链接的页面进行交互,拿到页面进行提炼,依次不断一层一层的抓取,这就构成了抓取环路。

抓取友好性优化

1、URL规范:

任何一个资源都是通过URL来抓取的,URL相对于网站的门牌号,那么URL的规划就非常重要了。尤其是如上图所示,“待抓URL”的环境,爬虫在首页的时候,并不知道URL是什么样子。

优秀的URL的特点是主流的、简单的,竟可能不要去做一些非主流的样式,让人看起来很直观的URL。

优秀URL示例:

https://zhidao.baidu.com/question/1930863656418255067.html
https://m.xox.com/chengyu/760.html
https://www.xox.cn/ztzl/djfh/content_436185.htm

如上所示,第一条是百度知道的链接,整个链接分成三段,第一段是网站的站点,第二段是资源类型,第三段是资源的ID。这种就是非常简单,并且爬虫看起来非常优质的URL。

如上所示,第三条相对百度知道多了一个段,首先第一段是网站的站点,第二段是站点的一级目录,第三段是站点的二级目录,最后一段是站点的内容ID。像这种的URL也是符合标准的。

不友好的URL示例:

https://www.xoxox.com/zh-
cnjoffice/%E5%9C%A8%E7%94%B5%E8%84%91%E6%88%96-mac-%E4%B8%8A%E4%B8%8B%E8%BD%BD%E5%B9%B6%E5%AE%89%E8%A3%85%E6%88%96%E9%87%8D%E6%96%B0%E5%AE%89%E8%A3%85-xXx0x-365-%E6%88%96-x0xx-2019-4414eaaf-0478-48be-9c42-23adc4716658

如上所示,这种链接一看就很长很复杂,有经验的站长都看得出,这种URL包含了字符,这个URL内包含了文章的标题,导致URL偏长,一个偏长的URL相对比简单的URL是不占优势的,百度站长平台的规则有明确的说到URL不能超过256字节,个人建议URL长度控制在100字节之内,100个字符足够展现出URL的资源了。

https://www.xox.com/article/464864596?spm=smpc.home.top-news2.1.1620294577922d7w73GW&_f=index_news_0

如上所示,这段URL包含统计参数,可能会导致重复抓取,浪费站点权益,所以竟可能不使用参数,如果一定要使用参数,那么也可以保留必要参数,参数字符竟可能使用常规的连接符,比如“?”、“&”,避免非主流连接符。

2、合理发现链路

什么是链路?

简单的理解:所谓的链路就是从目标索引页,所展现的相关性页面超链接,搜索爬虫基于这些链接,可以更好的,更全面的抓取整站的页面内容。

一般来讲:一个网站的索引页面,主要包括:首页、列表页、Tag标签聚合页面。

这些类型的页面,每天都会进行大量的页面内容更新与调用。

也就是说,随着不断的运营,这些页面就像是一个种子页面,在固定周期内,每天特定时间吸引搜索引擎不断的来访抓取最新页面。

而一个良好的索引页,通常需要具备,定期更新的策略,最新的内容与文章,一般建议采用最新时间排序的策略进行展现。

这样可以辅助搜索引擎更快的发现新内容。

这里面值得强调的一个细节就是,我们新发布的内容,最好是实时同步在索引页面,这里一些需要静态手动更新,亦或是采用CDN加速的页面经常会遇到相关问题。

同时,官方建议,我们尽量不要建立大量的索引页面,这里我们给到的理解就是:

基于更新频率的策略,我们只需要保持核心索引页可以频繁的保持更新频率即可,如果大量启用不同的索引页面,而没有进行有效的内容展现,也是一种抓取资源的浪费。

3、 访问友好性

通常来讲,所谓的网站访问友好性,主要是指:

1)页面的访问速度,尽量控制在2秒以内。个人觉得可以合理启用百度CDN云加速。

2)确保DNS解析的稳定性,一般我们建议大家选择主流的DNS服务商。

3)避免页面产生大量的跳转,比如:索引页展现的链接,大量启用301,302,404类型页面。

4)避免只用技术手段,亦或是错误的操作策略封禁百度爬虫。

5)避免错误的使用防火墙,导致百度不能友好的抓取目标页面,特别是在购买一些虚拟主机的时候,需要格外注意。

6)注意网站的负载压力,比如:高质量站点,短期大量更新内容,导致同一时间节点,大量的蜘蛛访问,造成服务器加载延迟甚至卡顿的情况。

4、提高抓取频率

我们知道想要试图提高网站的收录率,抓取频率的提升显得格外重要,通常来讲:

新站:搜索引擎更多的是在乎页面内容质量度的覆盖率。

老站:更多的是体现在页面的更新频率上。

这里面值得注意的就是:

对于企业新站而言,搜索引擎会在1-2个月的时间周期中,给予一定的流量倾斜与扶植,因此,在这个过程中,我们需要尽可能的提升内容输出质量。

从而获得较高的质量评估,这样在后期的运营过程中,才能够获得更好的展现。

一般新站上线,长期不收录的原因,主要可能是因为:内容质量不佳,内容增量覆盖行业的广度不够,为此,我们尽量避免采用伪原创和采集内容。

常见问答

Q资源提交是越多越好吗?

A:我们建议尽量选择优质内容提交,而尽量减少低质量页面的数据提交,如果这些页面的比例大幅度增加,很容易影响站点质量的评估。

Q普通页面提交就会收录吗?

A:链接提交给百度搜索资源平台,还需要一定时间周期的去响应排序与抓取,并不是说提交了就一定会在短期内抓取,根据不同网站的状态,一般普通收录,可能出现隔天收录的情况。

Q新站会不会有一个的抓取限制?

A:对于任何一个新站来讲,都没有抓取限制,不过去年开始,我们已经开始对新站有一个扶持,让你的网站,先在百度上收录起来。然后再进行一个价值判断,那么如何让百度知道你是一个新站,有两个捷径,第一个是去百度资源平台提交,第二个点是去工信部做ICP的备案,我们可以从工信部拿到ICP备案的数据,备案之后我们就知道有人建了一个新的站点,这样就可以给新站一个基础的流量扶持。

Q:每个站点蜘蛛抓取的配额都会有调整,大概多久调整一次?

A:确实会有调整,对于新资源会与你抓取频率相关,对于旧资源会与你内容质量相关,如果说新资源的质量有变化,那么抓取频率也会有变化,网站的规模有变化,那么抓取的频率也会有变化,如果说有很大的改版,那么抓取频率相对而言也会有变化。

Q:网站降权能不能恢复?

A:网站降权恢复的前提是我们会对网站进行重新评估,查看网站是不是有整改,如果有整改是不是做了404,并且有提交到资源平台,如果说完全符合要求后,搜索引擎会经过评估后,对没有违规的网站进行恢复。

Q:新站点是不是有考核期?

A:对我们来讲是没有一个考核期这么一个东西,我们前面也讲到了,竟可能会对新站的一个流量扶持,假设一个新站点流量扶持1-2个月以后,发现网站继续保持这种状态,那么就不会有一个太大的调整,当发现网站质量有明显的提升,那么我们也会相应的提升百度排名。

Q:百度对外国的服务器和国内的服务器有没有区别对待?

A:策略角度上来件,没有硬性区别对待,但是很多外国的服务器对国内部分区域封禁,以及国外服务器网站备案的角度上来讲,国内的服务器都具有优势。

Q:新站旧域名是不是更有优势?

A:如果说老域名和新站是相同的内容,确实在起步阶段有一定的优势,但仅仅是起步阶段,后期还是要看内容的质量,特别要注意的是,如果说老域名的行业和你新网站的内容不相关,即使是所谓高权重的老域名,也会适得其反。百度会认为你今天做这个,明天做那个,效果还不如重新做一个新域名。

Q:蜘蛛是不是有权重之分,比如220和116这种高权重蜘蛛?

A:蜘蛛是没有权重之分的,网站的排名最主要是取决于网站的质量。

本站注重原创,部分内容来源于网络整理,如有侵权,请联系QQ 570803231 进行删改,谢谢。

易懂SEO专注网站建设、SEO优化和网站安全,十多年来通过我们不懈努力获得了众多客户认可和尊重。

我们的目标:让所有用户都能用上一款好的网站系统!

我们的优势