61阅读

搜索引擎如何抓取网页-搜索引擎抓取网站内容应该从这四个方面着手

发布时间:2018-04-22 所属栏目:垂直搜索引擎有

一 : 搜索引擎抓取网站内容应该从这四个方面着手

  创业项目频道上线 你有项目来A5招商吧

  SEO专员绞尽脑汁进行网站优化,布局关键词、发布外链,创建原创内容,都是为了能够吸引搜索引擎来到网站爬行,抓取网站内容,从而收录网站,提高网站排名。

  但是搜索引擎进行网站内容的抓取时,究竟有什么技巧呢?其实,只要我们对搜索引擎抓取内容的数据进行分析,就可以了解搜索引擎的抓取习惯。具体的分析建议要从四个方面进行,分别是搜索引擎针对整个网站的抓取的频率、搜索引擎针对页面的抓取频率、搜索引擎对网站内容的抓取分布情况以及搜索引擎抓取各种不同类型网页的情况。

  一、搜索引擎针对网站抓取频率

  了解这一频率,并对该数据进行分析,就能够大致的知道该网站在搜索引擎眼中的整体形象如何。如果网站的内容更新正常,并且没有进行网站大幅度的更改,但是却突然出现了搜索引擎对整个网站的抓取频率骤减,那么原因只有两个,要不就是网站运行出现了故障,要不就是搜索引擎觉得这个网站存在漏洞,质量不过关。若抓取的频率突然剧增,那么就可能是伴随着网站内容的不断增加以及权重的积累,得到了搜索引擎的青睐,不过终会慢慢趋于稳定。

  

搜索引擎抓取网站-老渔哥-网站运营那点事儿

 

  二、搜索引擎针对页面的抓取频率

  了解这一频率可以帮助调整网页内容的更新频率。搜索引擎为用户展现的每一条搜索结果,都对应着互联网上的一个页面。每一条搜索结果从产生到被搜索引擎展现给用户,都需要经过四个过程:抓取、过滤、建立索引和输出结果。

  三、搜索引擎对内容抓取的分布

  搜索引擎对网站内容的抓取分布情况是与搜索引擎收录网站的情况结合在一起的。搜索引擎通过了解网站中各个频道的内容更新情况、搜索引擎的收录情况以及搜索引擎每日对频道的抓取量是否成正比来决定网站内容抓取的分布。

  四、搜搜引擎抓取各种不同类型网页

  每一个网站都包含着不同类型的网页,比如首页、文章页、频道页、栏目页等。通过了解搜索引擎对每个类型网页的抓取情况,可以了解搜索引擎比较喜欢抓取哪种类型的网页,从而有助于我们调整网站的架构。

二 : 搜索引擎收录网页规则 SEO如何应对和解决问题

也许很多人都如我的培训对象一样,都认为自己了解SEO,但是在回答我所准备的基础题的时候,能全对的人却很少。所以,我们也还是从基础开始,虽然我认为我的博客读者应该对SEO都是比较进阶的,你们就当跟我一起做次复习吧:)

搜索引擎的运作流程概括以及衍生出来的SEO问题

上图是概括出来的搜索引擎的运作流程,真实情况会比这复杂很多。在这个概括流程里,我将主要几个步骤列出,包括:搜索引擎爬虫爬行网站页面—网页被搜索引擎收录—搜索引擎(在用户搜索时)判断用户的搜索请求—(检索收录数据库,进行匹配结果排序之后)显示搜索结果—用户点击某个结果,离开搜索引擎。

SEO是在处理网站、搜索引擎、搜索用户三者之间的关系,所以SE的每一个重点运作流程都会是SEO要关注的。结合上图和上面说的步骤,我们可以看到搜索引擎的流程与SEO的思路是一一对应的。

搜索引擎爬虫爬行网页===》怎么让蜘蛛找到我们的网站、网页?

搜索引擎收录网页入库===》有什么办法保证我的网页在被爬行后就被收录?

搜索引擎判断用户的搜索请求===》我们的目标用户在搜索时用的什么词语?

搜索引擎按照顺序显示搜索结果===》怎么让我们的网页排名靠前?

用户点击某个结果===》有什么办法可以提高我们的页面的点击率?

在进一步了解搜索引擎对每个步骤的大概处理办法之后,我们应该重点思考的衍生出来的SEO相关的问题。上面所列的每一点,都是在SEO过程中所要面对和处理的。不同网站对这些问题给出的答案不一样,所以最终得分也不一样。各位朋友,你们不妨现在想想,每一个步骤,你们都会给出什么样的答案呢?

SEO如何应对和解决问题

在整个应对、处理、解决、提高的过程中,SEO其实是比较被动的,所有的做法都是针对搜索引擎和用户的喜好而进行的。所以,我在PPT里使用了09年最流行“被字句”,而与一般的“被XX”不一样,我们是希望被“被XX”而不是抗拒(囧!)。

被发现——让搜索引擎找到网站、网页。

被发现这个步骤里,我们所做的归纳起来就是给搜索引擎提供网站入口,外部的、内部的都需要。在这里面,我说的是“让搜索引擎找到网站、网页”而不只是网站或者网页,这是有差别的。不信,你想想?

被收录——让网页进入搜索引擎收录库

搜索引擎的收录是分级别待遇的,不同级别的待遇是不相同的。如何保证网站页面进入最适合的收录数据库,并且长期保持,那需要有入门、保级、晋级的资本和能力滴。

如果你的网站是图片站,那是否应该更重视图片搜索引擎里的收录和排名呢?

被排名——在搜索结果页面获得好的位置

Google的排名算法非常复杂,有老外们整理出过最重要的排名影响因素。网站要在一次搜索请求中获得排名,前提是被收录,然后是网页要符合用户的搜索词,其次是有排名的竞争能力。这个顺序,很多人是考虑反的了,导致在做SEO的过程中,出现问题。

被点击——让用户找到、并且点击你的网页

可恶的事情是在整个流程中,我们都是被动的;可喜的事情是在我们做了那么多之后,终于有用户点击了我们的网页。我们获得流量啦!

这一步骤也不容易,如何让用户在10条基本的搜索结果里面+可能的广告+可能的本地信息+可能的图片、视频、新闻、实时搜索结果等等一个老长的队伍里找到并且点击你呢?答案:靠前、满足需求、醒目。

在问题和解决问题的办法这两点里,可以说的东西非常的多(不然我们这些SEO博客都说些什么呢:) ),这边只是粗略的引导一下大家的思路。与之前的建议一样,你也不妨自己想想,每一个“被字句”中,你会使用什么手段获取最佳化结果?期待你的分享和讨论。

Kotler在《市场营销原理》一书中定义营销为从顾客身上获得利益回报,创造顾客价值和建立牢固顾客关系的过程。顾客和市场有五个核心概念:需要、欲望和需求;营销供给物(产品、服务和体验);顾客价值和满意;交换和关系;市场。每一点SEO都跑不了,每一点都有一本故事书。作者不同,故事讲起来就不一样廖,所以回顾复习和培训就很有意思。

三 : 能够获得搜索引擎垂青的网页

重要性网页是搜索引擎最希望优先收录的,这是每一个搜索引擎收录策略的目标之一。 如何提高网页的重要性,则是SEO的目标之一。影响搜索引擎优化结果的因素有很多种,但搜索引擎基本上不会根据一项因素来决定一个网页的排名。
  每个搜索引擎都有其独特的一套体系来评价网页的重要性。如Google利用PageRank算法用数字(1-10)不同等级来标识网页的重要性。评价网页重要性的算法,非常复杂。例如,搜索引擎的算法评价一张网页的重要性时,可能会涉及到以下几个方面:
  1.网站是否权威
  网站权威性与网页权威性这两个概念是有所区别的。网站权威性是由一张张高质量的网页、网站声望、用户口碑等等因素形成。搜索引擎判断一张网页的重要性,可能会优先判断网站的权威性。基于网站的权威性,再判断某一网页的权威性。
  2.网站长期的表现
  网站的历史是搜索引擎评价网站价值很重要的一个因素,网站上线的时间越长,贡献的内容越有价值,搜索引擎给与的权重就越高。网站从开通之日起,就应该保持一个正常的信息更新频率。所更新的内容,最好多注重质量。经过时间的积累,网站的权重就会逐渐提升。
  3.网站是否值得信任
  TrustRank,也就是我们常说的域名信任度。域名是基于网站的,对某一域名的信任也就是对网站的信任。TrustRank算法是为了应对垃圾链接而诞生的,PageRank算法不足点是只考虑链接的数量。而TrustRank是一个在计算网页重要性的时候考虑到网页可靠性的链接分析技术。TrustRank算法会优先设立种子页面,然后种子页面的Trust由页面上的链接开始传播。因此,TrustRank算法具有很强的抗垃圾干扰性。
  如果网站有很高的信任度,那么网页的信任度也不会差,换句话说就是网页的重要性也得到一定程度的提升。
  4.网页内容的来源
  原创、转载、采集,搜索引擎对此都有不同的评价标准。毫无疑问,原创的内容价值最高,能够获得搜索引擎比较高的评价。原创也是培养网站比较好的方法之一,但是需要不断坚持长期的提供原创内容,才能够提升网站的重要性。假如没有办法做原创内容的时候,可以思考怎么把内容做好。
  5.网页内容相关性好不好
  延伸阅读,可以提高内容的相关性。相关性是搜索引擎评价内容比较重要的一个因素,基于网页的排序中,搜索引擎会考虑网页的相关性好不好。相关性的网页,可以包括来自于站内或者站外。
本文标题:搜索引擎如何抓取网页-搜索引擎抓取网站内容应该从这四个方面着手
本文地址: http://www.61k.com/1125588.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1