61阅读

搜索引擎如何抓取网页-网站如何牵着搜索引擎的鼻子走路

发布时间:2018-02-19 所属栏目:搜索引擎抓取原理

一 : 网站如何牵着搜索引擎的鼻子走路

  在站长圈子里,如果要讨论seo与搜索引擎的关系,大抵会有这么三种观念:

  第一种,也是比较初级的观念:搜索引擎就是全部,排名就是网站的生命线,流量就是站长的衣食父母,而seo是带来网站流量的唯一手段。

  持有这种观点的,往往会陷入到seo的误区里面,从网站建设开始,关键词的选择,网站结构的搭建,每天网站内容的更新以及外链的建设都是为了搜索引擎而做,而恰恰相反的是,搜索引擎不希望站长们为了seo而seo,在2013年,绿萝算法的上线以及3.19的k站事件就给很大一部分持有这种观念的seoer泼了凉水,也让很多seoer感到迷茫,认为seo进入了末路。

  第二种,搜索引擎与seo的关系是水可载舟亦可覆舟的关系

  持有这种观点的seoer往往在百度出现大范围的k站以后,便会在QQ群、各种站长论坛里面牢骚满腹,尤为具有代表性的就是2012年的6.28k站风波,为了“报复”百度,大批站长集结以点竞价为手段,向百度抗议,很多百度竞价客户确实受到了一定的影响,产生了一定的损失。(如下图所示)

  

  其实很多站长在这个时候都是头脑发热,认为肯定是百度自己的问题,很少考虑一下自己网站存在的问题,在百度2013年初出《2013年中国网站运营发展趋势报告》的数据里面可以看出,目前互联网上存在的低质网站达到了75%,而优秀网站只有25%左右,一百个网站里面就有七十多个垃圾网站,这是个多么恐怖的数字啊!

  发现问题的最好方法就是换位思考,面对一个满是采集、满是伪原创、而且广告满天飞的网站,你认为它会给你带来价值吗,所以如果你的网站从内容到网站的各个细节,你只是想着靠排名的上升而来带来流量,而没有想着给浏览者带去一点价值的话,那么百度把你k掉,你就不要有什么怨言了。

  要明白,搜索引擎的目标只有一个,展现给客户想要的结果,从这个基础上说,并没有任何义务给任何一个网站它想要的排名,除非你的网站是搜索引擎的客户想要的。

  第三种,搜索引擎与seo的关系是苦大仇深的对立关系。

  这是与第二种观点完全相反的一种观点,也是一种谬论,存在这种观点的seoer,往往会认为seo与搜索引擎之间就是一场猫捉老鼠的游戏,决定其行为往往会走入黑帽领域,利用搜索引擎的各种漏洞来作弊,带来短暂的流量。

  其实上面所说的三种观点并没有绝对的界限,互相之间可能发生串行,比如坚持白帽的朋友可能在坚持了一段时间的白帽以后,网站被莫名其妙的降权或者k站了,而转入黑帽阵地,又或者一个长久进行黑帽的朋友突然领悟,觉得做一个品牌站才能带来长久的利益,继而转到正规优化手段上。

  但是龙羽最欣赏的观点还是最后一种,忘却了seo的seo,说起来比较悬,龙羽还称他为牵着搜索引擎鼻子走的seo,龙羽很支持柳焕斌(Robin)和昝辉(Zac)的一种观点,让seo回归本真,seo无非就是网站营销的一种手段,seo更不是网站运营的全部,如果有其他的流量能给网站带来流量,何必固执于传统的站内原创、站外的链接建设呢?

  如果你不能太理解龙羽所说的如何牵着搜索引擎的鼻子走的话,那么龙羽倒是给你介绍几个案例,大到淘宝网、中到美丽说、蘑菇街,小到暴走漫画的案例,仔细研究一下,相信肯定会给你带来启示,可以参考龙羽的这篇文章《从暴走漫画视频营销看网站品牌建设》。

  必须要时刻记住的一点,网站需要做的任务,仅仅就是提供给客户想要的。

  本文来源:兼济天下seo创业平台:http://www.jianjitianxia.com/ A5首发,转载保留链接,谢谢。

  相关阅读:

  A5报名优惠:2013年GOMX全球网络营销大会

二 : 详谈如何让搜索引擎快速收录网站页面

  经常有做seo的小伙伴问我为什么我网站的页面不被收录,有的是我自己原创的都不被收录呢?其实这也不一定是你文章不行,跟收录不收录跟网站的关键词、链接、robots等内容都有关系,小编服务的网站"优本财富"经过前期优化后现在网站页面收录最快的是8分钟,就算慢的当天也会收录,这样的水平跟大神没法比。今天就专门和大家分享一下如何让搜索引擎快速收录网站页面。

  一、网站页面有价值

  搜索引擎也是站在用户的角度来看待网站和页面的,如果你的网站页面拥有比较新颖、独特有价值的内容用户就会比较受用和喜欢,只有页面对用户有价值搜索引擎才会给予好的排名和快速的收录。网站的内容除了有价值以外还要具有一定的相似度,比方说你是一个理财网站内容就要围绕理财来写,而不要出现与之无关的内容,这样搜索引擎会认为这是比较专业的网站,会给予更高的关注度,对网站收录、关键词排名都有一定的好处。

  二、科学合理使用文字与图片

  一个网站的页面只有文字或者图片都是不友好的一个表现,合理的使用图文结合的页面是对用户友好的表现,在页面中使用与文字描述相符的图片能帮助用户很好的理解页面内容,加深用户印象,同时还能够给用户带来良好的视觉表现,能获得用户对网站页面的认可。同时一个页面中不可使用太多的图片,因为搜索引擎现在对图片的认知度还是比较低的,如果使用了图片一定要对图片添加alt标签并进行文字备注,以便搜索引擎蜘蛛和用户可在任何情况下便辨识图片。

  三、使用静态网页

  虽然动态页面也可以被收录,但是动态网页收录和被搜索引擎的认可度是不一样的,静态页面可以减小搜索引擎工作的时间,能够更快的把信息反馈给用户,还能节约带宽、减小数据库计算时间。如果页面已经创建好,过了几天还是没有被收录,那么你可以直接在搜索引擎里输入网址,然后进行手动提交,这也是增加网站页面收录的一个方法。站长也可以通过一个网站的百度快照判断网页的收录时间,然后根据百度快照时间对网站进行优化。

  四、关键词使用问题

  一个页面一定要慎重选择希望主推的关键词,关键词要出现在标题、描述、文章首段、中间段、最后一段,这样搜索引擎会给予这个关键词足够的重视,在网页排名中也会比较有优势。但是在网页上一定不要堆砌关键词,在2010年之前堆砌关键词可能还会有用途,但是现在搜索引擎经过不断的更新、优化对堆砌关键词有了更好的监控,如果使用堆砌关键词想获得好排名已经非常困难了。

  五、有规律的更新网站页面

  在更新网站页面的时候一定要有规律,如果你经常在某个时间段更新网站让搜索引擎养成这个时间段来爬取你的网站,这对网站页面的收录也有一定的促进作用,据优本财富小编所知,现在百度搜索引擎会在每天的上午7点-9点、下午17点-19点、晚上22点-24点这几个时间段进行一些比较大的更新,所以建议站长们能合理的利用这个时间段,增加网站的收录。

  六、增加优质外链

  做seo这行的人们都知道外链的作用,外链是增加网站收录、流量、排名很重要的一个因素,一个外链就是一个投票,一个高权重的优质链接能链接到你希望主推的页面可以帮助这个页面加快收录,获得好排名,传递权重,因此如果有可能尽量给自己的网站、页面增加优质外链。同时也要扩宽外链来源,可以在知名导航网站、第三方网站、网站目录、分类信息网站多做几个友情链接或者外链。

  以上是个人在优本财富网站优化一年多来的一些实战经验,希望能对各位从业者有一定的帮助。

  作者:霍龙,文章来源:优本财富,网址:www.18link.com

三 : 搜索引擎如何评估网页内容给予排名

  搜索引擎如何评估网页内容给以排名?放在互联网上的一个网站,需要有好的网页质量,才能被更多的用户浏览。怎样的网页才是搜索引擎认为好的,满足用户需求的,用户认为好的?搜索引擎和用户对评估网页有各自的标准。下面分别进行介绍。

  一、搜索引擎评估网页内容

  搜索引擎对网页中的内容给予不同的权重。但是,想要获得高权重,内容的质量一定得经得住搜索引擎爬取过程中的分析,最终搜索引擎才会决定是否给予页面高权重。分析页面内容,搜索引擎会从以下几方面考虑。

  (1)页面内容与查询的语义关系是否匹配

  用户进行查询时会输入关键词,搜索引擎通过这些输入的内容,来判断该内容是否可以出现在用户的查询结果中。搜索引擎通过分析页面中的词、词组,来掌握页面的内容,并建立相互之间的关系从而掌握页面内容是否与用户的查询有关系。

  (2) 通过判断内容的价值

  搜索引擎用于爬取页面的蜘蛛,会忽略代码里的很多内容,但是蜘蛛最感兴趣的却是代码里的文字内容。所以,页面的文字部分,是比较容易讨得搜索引擎喜欢的东西。下图所示的是网页的源代码,蜘蛛对于框选的文字,会比其他代码更有兴趣。

  

 

  二、 用户评估网页内容

  用户会根据搜索结果是否能够帮助找到想要的信息,来评价网页的内容。这里将用户的评估标准总结为如下几部分。

  (1)相关性

  相关性是指网页的内容与用户的搜索相匹配。例如,用户想知道“阈”字怎么发音,通过搜索,搜索引擎会给出搜索结果。如左下图所示,都是用户能够获取的结果,但很明显这个页面解决了用户的搜索需求。

  

相关性

 

  (2) 有效性

  有效性,是指内容要对用户起到有效帮助。例如,通过搜索查找软件,实现软件的下载安装。该任务是用户在互联网上经常用到的。但是,在搜索的过程中,是否能够找到安全的可供下载的软件资源呢?用户可能经常会碰到,点击进入网站,然后被要求注册才能进行操作的事情。

  又或者,用户想要下载软件,但被要求付费。这些有权限限制、需要检查资源是不是能够有效实现下载的结果,都无法真正满足用户的需求。

  (3) 全面性

  全面性,是指内容要尽可能的全面一些。例如,用户在搜索某一新闻事件的时候,单个的页面往往无法满足用户需求,因为不能够全面地发布新闻事件。这时,如果通过一个专题的形式,就可能提高页面的质量,使内容变得更加丰富。

  (4)及时性

  及时性,是指网页的内容要最新、最快的。例如,用户搜索“招聘”信息,然后用户获取的是一个月前或者一年前发布的信息,又或者是已经过了招聘期限的信息,这样的内容就等于是无用信息了。所以,内容的及时性很重要。

  (5)权威性

  权威性,是指网页的内容由相关专家或者网站发布,更能让用户有不同的感觉。例如,同样是一个新闻事件,在大的网站比如新浪网进行新闻发布,与在个人的博客上发布,前者更具有权威性。

  (6)便捷性

  便捷性,是指用户浏览网页内容的过程中,看到内容所花费的时间和成本越少,越便捷。例如,同样的内容,一个网页可以在第一屏就让用户进行浏览,另一个需要用户进行点击或者在其他的位置才能看,用户肯定会选择能够直接看到的。

  三、百度如何站在用户的角度评估网页的质量

  百度在几亿中的某个网页给予排名,不但需要通过百度层层的排名算法,同时,也要结合用户体验的角度去评估网页,用户体验一直以来是百度唯一在努力的算法之一,那么,百度如何站在用户的角度评估网页的质量给予排名呢,只要体现以下几个方面。

  (1)点击率,点击越高的网站,百度给予的权重也会高,证明用户在百度搜索结果之中你的标题与用户的搜索需求相结合,匹配度较高。

  (2)页面停留时间,一个网页被用户点击进行浏览,页面的停留时间是网站有没有用户体验的唯一根据,页面满足用户相对来说停留的时间会比较久一点,一般以内容大小相对比,内容小浏览的时间也会比较小,但这不会有所影响,原因看下一条。

  (3)是否满足用户的搜索需求,用户从百度搜索、点击、浏览到关闭网页,该网页是否满足用户的搜索需求极为重要,百度如何判断,按照用户搜索习惯,如果某个网页已满足用户的搜索需求,首先,他会关闭这个网页再关闭百度的搜索结果,从这一点百度完全可以判断出来,再次就是如果某个网页已满足用户的搜索需求,首先,他会关闭这个网页再用百度搜索另一个需求,从这一点百度也完全可以判断出来这个网页的质量较高,需求的匹配度达到100%。

  原文出处链接:

四 : 搜索引擎抓取和收录页面的过程

  搜索引擎对网页的收录是一个复杂的过程,简单来说,收录过程可以分为:抓取、过滤、建立索引和输出结果。下面和大家简单说一下这几个步骤,让你可以清楚你的网页从你发布之后是如何被搜索引擎收录并获得相关排名的。

  

 

  1、抓取

  网站的页面有没有被搜索引擎收录,首先要看一下网站的蜘蛛访问日志,看一下蜘蛛有没有来,如果蜘蛛都没有抓取,那是不可能被收录的。蜘蛛访问网站的日志可以从网站的IIS日志里面看到,如果搜索引擎蜘蛛没有来呢?那么就主动向搜索引擎提交,搜索引擎会派出蜘蛛来抓取网站,这样网站才有可能被尽快收录。

  如果你不会分析网站的日志也没有关系,这里推荐爱站SEO工具包,将网站的日志导入到这个工具之后,就能看到日志的分析,你能从中得到很到信息。

  广度优先抓取:广度优先抓取是按照网站的树形结构,对一个的层进行的抓取,如果此层没有抓取完成,蜘蛛不会进行下一层的搜索。(关于网站的树形结构,会在后续的日志中进行说明,在没有发布文章之后,在此会添加连接)

  深度优先抓取:深度优先抓取是按照网站的树形结构。按照一个连接,一直抓取下去,知道这一个连接没有再往下的链接为止,深度优先抓取又叫纵向抓取。

  (注意:广度优先抓取,适用于所有情况下的搜索,但是深度优先抓取不一定能适用于所有情况。因为一个有解的问题树可能含有无穷分枝,深度优先抓取如果误入无穷分枝(即深度无限),则不可能找到目标结束点。所以,深度优先抓取策略很多时候是不会被使用的,广度优先的抓取更加的保险。)

  广度优先抓取适用范围:在未知树深度情况下,用这种算法很保险和安全。在树体系相对小不庞大的时候,广度优先也会更好些。

  深度优先抓取适用范围:刚才说了深度优先抓取有自己的缺陷,但是并不代表深度优先抓取没有自己的价值。在树型结构深度已知情况下,并且树体系相当庞大时,深度优先搜索往往会比广度优先搜索优秀。

  2、过滤

  网站的页面被抓取了并不代表一定会被收录。蜘蛛来抓取了之后,会把数据带回去,放到临时的数据库中,再进行过滤,过滤掉一些垃圾的内容或者是低质量的内容。

  你页面的信息如果是采集,在互联网上有大量的相同信息,搜索引擎就很有可能不为你的网页建立索引。有时候我们自己写的文章也不会被收录,因为原创的不一定就是高质量的。关于文章质量的高低,我会在以后的文章中单独拿出一篇来和大家详细讨论。

  过滤这一过程就是一个去掉糟粕的过程,如果你的网站的页面顺利通过了过滤这一过程,说明页面的内容达到了搜索引擎设定的标准,页面会就会进入建立索引和输出结果这一步。

  3、建立索引与输出结果

  这里,我们把建立索引和输出结果合在一起进行说明。

  通过一系列的过程之后,符合收录的页面之后会建立索引,建立索引之后就是输出结果,也就是我们在搜索关键词后,搜索引擎展示给我们的结果。

  当用户在搜索关键词时搜索引擎就会输出结果,输出的结果是有顺序排列的。这些结果排序是根据一系列复杂的算法来排定的。比如:页面的外链,页面与关键词的匹配度,页面的多媒体属性等。

  在输出的结果中,还有一些结果是通过抓取之后直接可以输出的,没有经过中间复杂的过滤和建立索引等过程。什么样的内容和什么样的情况下才会发生的呢?那就是具有很强的时效性的内容,比如新闻类的。比如今天发生了一件特大事件,各大门户和新闻源快速发出了关于事件的新闻,搜索引擎会迅速对重大新闻事件作出反应,快速收录相关的内容。

  百度对于新闻的抓取速度是很快的,对重大事件的反应也比较及时。但是这里还有一个问题就是,这些发布的新闻如果有低质量的页面会怎么办?搜索引擎会在输出结果之后,仍然对这一部分新闻内容进行过滤,如果页面内容与新闻标题不符,质量过低,那么低质量的页面还是会被搜索引擎过滤掉。

  在输出结果的时候,搜索引擎会多多少少会对搜索结果进行人工干预,其中以百度为最严重,在百度很多关键词的自然搜索结果中被加入了百度太多自家的产品,而且很多是没有考虑用户体验的,这也是百度被大家诟病的原因之一,有兴趣的朋友可以百度一个词看一下搜索结果,是不是百度自家的产品占据了太多的首页位置。

  我是刘旭,我的微信公众平台:a1719752001,希望能和大家多多交流。

本文标题:搜索引擎如何抓取网页-网站如何牵着搜索引擎的鼻子走路
本文地址: http://www.61k.com/1154133.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1