61阅读

搜索引擎基本工作原理-LUB:LUB-基本概述,LUB-工作原理

发布时间:2017-12-15 所属栏目:马克思基本原理概论

一 : LUB:LUB-基本概述,LUB-工作原理

Lub是连接内部或外部UTRAN到其它功能实体上的四个平台之一。

Lub是连接内部或外部UTRAN到其它功能实体上的4个平台之一。另外3个是Uu、lu和lur。Lub是使B接点和RNC相连接的1个内部平台。最后有1个大部分时间是内部平台的lur平台,但在某些网络架构中也能破例地做外部平台。Lub是在1个基站和无线网络控制器之间的1个平台。

lub_LUB -基本概述

lub_LUB -工作原理

lub_LUB -相关词条

lub_LUB -参考资料

http://www.javvin.net/WirelessTerms/Lub.php

二 : 第二课笔记:搜索引擎基础知识和工作原理

 

  大家好,我是专门从事SEO的,几个月来一直都在维护和优化按摩器排行榜www.yziyuan.com这个网站,并从中总结了很多的经验和知识。今天要分享的是《搜索引擎基础知识和工作原理》,这是最基本的概念吧,

  第一部分:什么是搜索引擎?

  1,定义?

  官方定义:

  搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。百度和谷歌等是搜索引擎的代表。

  我的理解是:

  按照搜索引擎的搜索规则去设置目标网站的内容,等用户搜索的时候,能够更好的展现给用户想要的内容!这样的一个服务过程就是通过一个叫搜索引擎的工具去实现的!

  2,分类?

  (1) 全文索引:

  从整个互联网中提取各个网站的信息(以网页文字为主),通过自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序建立起数据库,搜索结果直接从自身的数据库中调用。并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。全文搜索引擎是目前广泛应用的主流搜索引擎,国外代表有Google,国内则有著名的百度。

  SEO应该对这类搜索引擎的研究重点是:

  关键词的匹配程度、出现的位置、频次、链接质量——

  因为:当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。

  (2) 目录索引

  用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。目录索引中最具代表性是Yahoo、新浪分类目录搜索,hao123。

  (3) 元搜索引擎

  (META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

  (4) 垂直搜索引擎

  是2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。精准度比较高!

  (5)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。

  (6)门户搜索引擎

  比如MSNSearch,特点是自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。

  (7)免费链接列表

  免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。

  总结:做SEO离不开搜索引擎,从某种意义上来说SEO就是在和搜索引擎博弈的过程!我们做SEO,虽然不需要会写代码,也不需要深入的了解搜索引擎的技术细节,但是对搜索引擎的一些基本常识还应该了解一下有利于我们的优化工作!只有了解了搜索引擎的这些基本概念,我们在做起网站优化来才能游刃有余!

  第二部分:搜索引擎的发展史

  如今互联网的发展速度,网络上的资源远远的超出了人类的想想和掌控,如果没有搜索引擎我们根本就找不到我们想要的东西!尤其是社交网络的发展,比如facebook,twitter,微博等,移动应用的火爆增长,无论是从使用人数,网站的流量看?还是社会的影响力远远的超过了雅虎,谷歌等曾经的这些互联网巨头!那说这些和SEO有什么关系呢?只要有网络的地方就有搜索,有搜索的地方就从在SEO!

  那么搜索引擎的发展史是什么样的?对我们做网站优化有什么需求和帮助呢?难道我们不了解搜索引擎的发展史就无法做好SEO吗?其实不是这样的,了解搜索引擎的发展史对我们做好网站优化会有更大的帮助!

  搜索引擎的发展史我在这里就不会详细的去讲解了,如果感兴趣的同学可以去搜索引擎直通车这个网站上学习一下!

  下面就来看一下搜索引擎增长所带来的价值:

  这些数据能说明一下几个问题:

  (1),搜索市场还在如日中天的火速发着!对于做SEO的从在很大的机会和金矿

  (2)通过搜索引擎的增长,搜索引擎公司很大一部分收入都是来自于网络广告,其中SEM占的比例还很高,SEO是自然搜索排名。不需要话费很多钱就可以实现同样的价值;

  (3) 其他的搜索也越来越亲近用户,SEO施展才华的地方多了起来!

  (4)通过不同平台的竞争,社会的关注,体质不断的健全,对今后做SEO的企业也是一个很好的福音!

  总结:

  通过搜索引擎的发展速度我们可以很容易的判断出SEO在未来的重要性!了解搜索引擎的发展历史有助于SEO优化人员能更深刻的理解SEM的发展和变革!这样也有利于我们能够很好的把握住未来的方向!只有与时代同步了,我们才能不断的进步!搜索引擎的发展速度之快。对SEO来说是好事,只要搜索的地方就会有排名,有排名就会用到SEO技术!我们要做的就是不断的去关注这些动态变化,以便能更好的发挥SEO的长处!

  大家都知道,互联网的发展速度不是一般的快!随着互联网的发展,搜索引擎的价值在不断的飙升着。你们为什么会用到这种搜索技术呢?是如何出现的呢?举个例子来说:我们的图书馆是藏书的宝地,当图书馆里面的书籍和文件随着时间不断增多的时候,就必然会出现一个问题,查找困难,管理也很困难,这时候该怎么办呢?通过目录管理,我们就可以对图书馆的所以文件实现规律性的管理,其实,我们的搜索引擎原理就是起源于这种传统的文件检索技术!那么搜索引擎真正的原理又是怎么一回事儿呢?我们继续往下看:

  第三部分:搜索引擎的工作原理:

  搜索引擎的工作原理大体上可以分为三个阶段:

  (1) 爬行和抓取:

  就是搜索引擎蜘蛛通过跟踪链接地址访问网站页面,把获取到的网站页面html代码放入到自己的数据库当中。

  爬行和抓取是搜索引擎工作的第一步,主要是完成数据的收集任务;

  解释几个关键词:

  1,蜘蛛:

  (1) 定义:我把他它叫做抓取网页数据时的执行者,其实它就是一个计算机程序,因为这个工作过程与现实中的蜘蛛很相像,专业内就称它为搜索引擎蜘蛛!

  (2) 工作过程:蜘蛛程序向网站页面发出访问请求,服务器就会返回HTML代码,蜘蛛程序把收到的代码存入原始页面的数据库当中。蜘蛛访问任何一个网站时,都会最先访问网站根目录下的robots.txt文件!如果robots.txt文件禁止搜索引擎抓取某些文件或者目录,蜘蛛将会遵守这些禁止协议,不抓取那些被禁止的网址。

  (3) 常见的搜索引擎蜘蛛名称:

  百度蜘蛛、雅虎中国蜘蛛、Google蜘蛛、微软Bing蜘蛛、搜狗蜘蛛、搜搜蜘蛛、有道蜘蛛等等!

  2,跟踪链接

  大家都知道整个互联网是由相连接的网站页面组合成的!页面和页面之间是靠链接来联系的,搜索引擎能为了更快速的收集网站数据,就是通过搜索引擎蜘蛛去跟踪网站页面上的链接,从一个页面抓取到下一个页面!这个过程和蜘蛛在蜘蛛网上爬行一样!就这样蜘蛛可以快速的可以爬完整个互联网上的网站页面!

  根据网站链接结构的不同我们可以把蜘蛛的爬行路线分为两种:深度爬行和广度爬行

  A:深度爬行:蜘蛛沿着发现的页面链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另为一个链接再一直向前爬行!

  B:广度爬行:蜘蛛在一个页面上发现多个链接时,不顺着一个链接一直往前爬行,而是把页面上所有的第一层链接都爬行一遍,然后再继续沿着第二层页面上发现的链接爬向第三层页面!一直这样进行下去……

  所以,我们在做网站的时候,对网站的结构一定要有这两种布局,优化网站页面的时候也一定要做到两种链接布局!这样的结构是搜索引擎蜘蛛组喜欢的!

  3,定向优化技术勾引蜘蛛

  A:过读网站和页面的权重进行优化提高蜘蛛的来访次数。

  B:做好页面的跟新频率和内容的质量

  C:增加导入链接

  D:距离首页的点击距离;距离首页点击距离越近,页面权重越高,蜘蛛爬行的机会越大

  4,地址库,

  搜索引擎会建立一个存放页面的地址库,目的就是为了避免搜索引擎蜘蛛重复爬行和抓取网址,这个地址库里面有已经被抓取的页面,也有被发现后还没有被抓取的页面!

  这个地址库中的URL一定是蜘蛛抓取来的吗?答案是No

  有人工录入的种子网站地址,也有站长通过搜索引擎网页提交表格提交进去的网址!

  另为需要注意的是:网址提交了,也不一定就能被收录,这看你提交页面的权重如何了!不过搜索引擎蜘蛛还是跟喜欢自己沿着链接去抓去页面!自己得来的更好吃!

  5,文件存储

  搜索引擎蜘蛛抓取来的页面就存放在这个原始页面数据库中!其中每个URL都有一个独特的文件编号!

  6,对复制内容的检测

  有很多站长曾经碰到过这样的问题:在网站页面中发现了蜘蛛来爬行过,但是页面没有被收录过,不知道什么回事!其实很简单,很有可能是蜘蛛在爬行你网页的时候发现了很多权重比较低的内容,比如:转载或者伪原创的内容是,蜘蛛就会离开!你的网页也就没有被收录!蜘蛛在爬行抓取页面内容的时候也会对其进行一定程度的复制内容检测!

  (2) 预处理

  这个过程是指:索引程序对数据库里蜘蛛抓取来的网站页面进行处理,主要做文字提取,中文分词,索引等工作;

  这个过程是起到一个桥梁的作用,由于搜索引擎数据库中的数据实在是太多了,当用户在搜索框中输入关键词后不可能一下就返回排名结果吗,但是往往我们感觉很快,其实起到关键作用的就是预处理这个过程!和爬行抓取过程一样他也是在后台提前完成的!

  有些人认为预处理就是索引,其实不是这样的,索引只是预处理的一个主要步骤,那么什么是索引呢?索引是对数据库列表中的一列或者多列的值进行排序的一种结构!

  在索引之前要做五个工作:

  1, 提取文字:

  我们知道蜘蛛抓取的是含有全部HTML代码的页面,这里面其实包含很多信息:有文字,有CSS属性,有大量的HTML格式标签,javascript程序!但是后面的两个是无法参与到排名内容中来的,也就是说除了文字之外其它的都给去掉了,这个过程就是去除过程,也叫提取文字的过程,即:提取出可以用于排名处理的网站页面文字内容!

  注意:搜索引擎除了提取出可见的文字外,还可以提出以下不可见的文字内容;比如:METa标签中的文字内容,图片替代文字,FLASH文件的替代文字,链接锚文字等!

  2, 中文分词

  大家都知道中文句子和英文句子有一个不同的地方,不是字母和汉字的区别,而是,英文单词和单词之间是有空格分开的,中文句子里,字和字没有之间没有分隔符,一个句子中的词都是连在一起的!所以,这时候搜索引擎就必须先分辨一下哪几个字组成一个词,哪几个字本身就是一个词!比如:“波司登羽绒服”就将其分为“波司登”和“羽绒服”两个词;

  中文分词一般有两种方法:

  A:词典匹配:又分为正向和逆向匹配!

  B:根据搜索统计

  这两者往往混合使用!而且在百度和谷歌中分词的相关性有时候也不太一样,例如:搜索引擎优化,在百度中就是一个完整的词,而在谷歌中将其分成了“搜索”“引擎”“优化”三部分,所以在做优化的时候一定要注意选择的关键词的特点,后面我们会详细的讲解选词技巧。

  注意:如果我们非要让一个词组合在一起,不让搜索引擎的分词技术把它分开怎么办?

  我们可以这样做:在页面标题,h1标签,利用黑体表粗出现该关键词!这样就适当的去提醒了搜索引擎,搜索引擎就会知道我们这个词是一个组合就不会将其分开了!

  3, 去停止词

  什么是停止词?就是在页面中出现次数比较多的,对内容没有实质性影响的那些词;比如:“的”,“得”“地”这些助词,“啊”“哈”“呀”等感叹词,“从而”“以”“却”等副词或者介词,这些词就被称之为停止词!英文里有:the,a,an,to,of等等

  搜索引擎去停止词主要有两个目的:

  一个是:使索引数据主题更为突出,减少无谓的计算量;

  另一个是:检测你的内容是否和另外数据库中的内容有大量的重复性

  在这里需要提醒各位的是:以后不要随便在网上复制一篇文章加上几个停止词就粘到自己的网站上去了,学完上边的,你应该懂什么意思了!

  4, 去除噪声:

  这里的噪声不是我们所说的噪声,它是特指一种垃圾,即多余的字词!这些字词一般包含在版权声明文字,导航条,广告中!消除噪声是为了使得页面能更好的显示主题内容:

  举例:博客中的“分类目录”“历史存档”等!

  5, 去重(chong)

  什么意思呢?假如一篇同样的文章出现在不同的网站上或者链接 到不同的地址上,搜索引擎就会认为它是一个文件,它并不喜欢这样的重复内容,所以它也不会去抓取的!在进行索引之前就需要对这些内容进行识别和删除重复的内容,就叫“去重”!

  搜索引擎如何去重!技术我们不需要掌握,但是我们得注意几个关键点:

  A:简单的增加“的”“地”“得”,是很容易的被识别的,一定要慎重使用!

  B:复制别人的文章,简单的交换一下段落结构!这种伪原创也一定要慎重使用!

  这是因为:这样的操作无法改变文章的特定关键词,上面的那些做法始终逃不过搜索引擎的去重算法。

  经过上面的五个步骤后,搜索引擎就能得到独特的,能反映页面主要内容的,以词为单位的内容。

  然后搜索引擎程序将上边提取到的关键词通过分词程序来划分好,把每一个网站页面都转化为一个关键词组成的集合!同时记录下每一个关键词在该页面上出现的频率、次数、格式(比如:标题标签、黑体、H标签、锚文本等)位置(第几段),这些都已权重的形式记录在下来!然后放到一个地方,这个地方就是专门放置这些组合词的词表结构——索引库!也交做“词表索引形式”

  什么是正向索引:

  每一个文件夹都对应一个ID,文件内容被表示为一串关键词的集合!在搜索引擎的索引库中,这时候关键词已经别转化成了关键词ID,这样的数据结构叫正向索引!

  给大家画一张图就明白了:

文件ID

内容

文件夹1

关键词1,关键词2,关键词7,关键词10……关键词L

文件夹2

关键词2,关键词7,关键词30……关键词M

文件夹3

关键词2,关键词70,关键词35……关键词N

……

……………………

文件夹7

关键词2,关键词7,……关键词X

……

………………

文件夹X

关键词7,关键词50.,关键词Y

   什么是倒排索引呢?

  因为正向索引不能直接用于排名!比如:用户搜索某一关键词2,如果只从在正向索引,只能找到包含该关键词的文件夹,不能实际的返回排名;这时候就会用到倒排索引了

  在倒排索引中关键词变成了主键,每个关键词对应一系列文件,每一个文件都出现了要搜索的关键词,这样用户在搜索某一个关键词的的时候,排序程序就能在倒排列表中找到这个关键词对应的文件!

  详细请看图:

 

关键词

文件

关键词1

文件1文件2,文件17,文件110……文件L

关键词2

文件2,文件7,文件30……文件B

关键词3

文件2,文件7,文件30……文件U

……

……………………

关键词6

文件21,文件70,文件300……文件K

……

………………

关键词7

文件12,文件27,文件3……文件L

   特殊文件的处理:

  搜索引擎除了抓取HTNL文件还可以抓取以下文件类型:PDF,Word,WPS,PPT,TXT等这些文件,不过注意的是:搜索引擎还不能抓取图片、视频、Flash这类文字内容,也不能执行脚本和程序!所以在SEO的时候,你网站上面尽量少用这些!

  链接关系的计算:

  当搜索引擎抓取了页面后,还必须事先计算出页面上有哪些链接指向哪些页面。每个页面又有哪些导入链接,链接使用的什么锚文字,正是这些复杂的链接指向关系形式形成了网站和页面的链接权重!例如:google的PR值就是这些关系的重要体现,后面详解!

  排名:

  排名过程是与用户互动的过程:是指当用户输入关键词以后,排名程序调用索引数据库里面的数据,计算相关性后按照一定格式生成搜索结果页面!

  1, 搜索词的处理过程

  A:中文分词;前面讲过了

  B:去停止词;前面讲过;

  C:指令处理:搜索引擎的默认处理方式是在关键词之间使用“与”逻辑,比如用户在搜索“网站建设”时,搜索引擎默认为用户想要查找的既包含“网站”也包含“建设”的页面!

  常见的搜索指令有加减号,还有哪些搜索指令?如何使用使用搜索指令,后面会详细拿出一节来详细讲解的!

  D:如果用户输入了明显错的字或者英文单词的时候,搜索引擎会提示用户正确的用字或者拼法!例如:搜索“建站技数”

  E:整合搜索触发!比如搜索明星,会出现图片,视频等内容!适合做热门话题;

  2, 文件匹配如何进行?

  这一部是在倒排索引中能快速的完成:看图

 

关键词

文件

关键词1

文件1文件2,文件17,文件110……文件L

关键词2

文件1,文件7,文件30……文件B

关键词3

文件2,文件7,文件30……文件U

……

……………………

关键词6

文件21,文件70,文件300……文件K

……

………………

关键词7

文件12,文件27,文件3……文件L

   如果用户搜索的一个词,既有关键词2,也有关键词3的话,那么组后就会很精准的找到既包含关键词2,也包含关键词3的文件,然后返回!

  3,初始子集如何选择?

  互联网上的页面有成千上万个,搜索某一关键词出来的页面也会有上千万个,如果搜索引擎一上来就是直接计算页面相关性的话,那简直就是太费时间了!实际上用户是不需要看到这成千上万的页面的,用户只需要的是一两个有用的页面!这时候搜索引擎就会根据用户的搜索词预定的选择100个文件,然后进行返回,那么到底是选择哪一百个呢?这就看你网站页面和用户搜索的关键词的相关匹配度了!页面权重高的就会进入到搜索引擎的预选子集中!

  4, 计算相关性

  选完子集后就会计算页面的相关性,我们不需要知道搜索引擎是如何计算页面相关性的,但是我们的知道影响计算页面相关性的因素,这样更有助于我们进一步优化我们的网站!

  SEO关注的因素有以下几个:

  A:关键词的常用程度:举例“来吧UFO”

  B:词频和密度

  在没有关键词堆积的情况一下,一般认为搜索词在页面中出现的次数和密度越高,说明页面和搜索词的相关性也就越高!

  C:关键词的位置和形式

  位置研究主要有:首页还是二级页面?形式主要研究:标题标签,黑体,H1

  D关键词的距离:例如搜索词是“网站建设”,如果页面中出现很多次连着的“网站建设”这个词,而不是分开的“网站”后面没有建设,或者有建设没网站!

  E:链接分析和页面权重

  链接和权重的关系主要是锚文字,有多少搜索词是以锚文字的链接导入的相关性就高

  5, 排名过滤以及调整

  当选出匹配的文件子集后,大体的排名就差不多确定下来了!这里做的排名过滤主要是针对于那些靠作弊手段,有作弊嫌疑的网站进行调整!虽然按照前面的工作最后就算出来的这些网站权重和相关性非常的高,但是搜索引擎在最后一步也会把这些网站给过滤掉的!

  6, 排名显示的效果

  主要显示的是:原始页面的标题标签,说明标签,快照日期等数据!

  注意:有的网站是搜索引擎需要调用动态生成的页面摘要,而不是调用页面本身的说明!

  7, 搜索引擎缓存的作用:

  搜索引擎会把用户经常搜索的一些词记录下来,会把这些搜索过排名记录储存在搜索引擎的缓存当中,当由用户在一次搜索这个词的时候,搜索引擎会直接调用缓存中的内容!这样缩短了搜索反映时间,大大提高了排名效率!

  总结:

  上面是搜索引擎整个工作过程的详细的介绍!这些只是概念上的东西,其实搜索引擎的工作步骤和算法远比我们想想中的复杂!但是没关系,我们做SEO的只要明白了上面的这些基本概念就已经足够了!搜索引擎的算法还在不断的优化,感兴趣的同学可以多关注一下,这样也有利于自己在优化上有个新的突破!上面介绍的概念大致是主流搜索引擎的基本工作原理!

  小欣

  2012年12月30日星期日晚

三 : 搜索引擎工作的基础流程与原理

  搜索引擎最重要的是什么?有人会说是查询结果的准确性,有人会说是查询结果的丰富性,但其实这些都不是搜索引擎最最致命的地方。对于搜索引擎来说,最最致命的是查询时间。试想一下,如果你在百度界面上查询一个关键词,结果需要5分钟才能将你的查询结果反馈给你,那结果必然是你很快的舍弃掉百度。

  搜索引擎为了满足对速度苛刻的要求(现在商业的搜索引擎的查询时间单位都是微秒数量级的),所以采用缓存支持查询需求的方式,也就是说我们在查询搜索时所得到的结果并不是及时的,而是在其服务器已经缓存好了的结果。那么搜索引擎工作的大体流程是什么样子呢?我们可以理解为三段式。

  本文仅仅是对着三段工作流程进行大体上的讲解与综述,其中一些详细的技术细节将会用其它的文章进行单独的讲解。

  一.网页搜集。

  网页搜集,其实就是大家常说的蜘蛛抓取网页。那么对于蜘蛛(google称之为机器人)来说,他们感兴趣的页面分为三类:

  1.蜘蛛从未抓去过的新页面。

  2.蜘蛛抓去过,但页面内容有改动的页面。

  3.蜘蛛抓取过,但现在已删除了的页面。

  那么如何行之有效的发现这三类页面并进行抓取,就是spider程序设计的初衷与目的。那么这里就涉及到一个问题,蜘蛛抓取的起始点。

  每一位站长只要你的网站没有被严重降权,那么通过网站后台的服务器,你都可以发现勤劳的蜘蛛光顾你的站点,但是你们有没有想过从编写程序的角度上来说,蜘蛛是怎么来的呢?针对于此,各方有各方的观点。有一种说法,说蜘蛛的抓取是从种子站(或叫高权重站),依照权重由高至低逐层出发的。另一种说法蜘蛛爬在URL集合中是没有明显先后顺序的,搜索引擎会根据你网站内容更新的规律,自动计算出何时是爬取你网站的最佳时机,然后进行抓取。

  其实对于不同的搜索引擎,其抓取出发点定然会有所区别,针对于百度,Mr.Zhao较为倾向于后者。在百度官方博客发布的《索引页链接补全机制的一种办法》(地址:http://stblog.baidu-tech.com/?p=2057)一文中,其明确指出“spider会尽量探测网页的发布周期,以合理的频率来检查网页”,由此我们可以推断,在百度的索引库中,针对每个URL集合,其都计算出适合其的抓取时间以及一系列参数,然后对相应站点进行抓取。

  在这里,我要说明一下,就是针对百度来说,site的数值并非是蜘蛛已抓取你页面的数值。比如site:www.seozhao.com,所得出的数值并不是大家常说的百度收录数值,想查询具体的百度收录量应该在百度提供的站长工具里查询索引数量。那么site是什么?这个我会在今后的文章中为大家讲解。

  那么蜘蛛如何发现新链接呢?其依靠的就是超链接。我们可以把所有的互联网看成一个有向集合的聚集体,蜘蛛由起始的URL集合A沿着网页中超链接开始不停的发现新页面。在这个过程中,每发现新的URL都会与集合A中已存的进行比对,若是新的URL,则加入集合A中,若是已在集合A中存在,则丢弃掉。蜘蛛对一个站点的遍历抓取策略分为两种,一种是深度优先,另一种就是宽度优先。但是如果是百度这类商业搜索引擎,其遍历策略则可能是某种更加复杂的规则,例如涉及到域名本身的权重系数、涉及到百度本身服务器矩阵分布等。

  二.预处理。

  预处理是搜索引擎最复杂的部分,基本上大部分排名算法都是在预处理这个环节生效。那么搜索引擎在预处理这个环节,针对数据主要进行以下几步处理:

  1.提取关键词。

  蜘蛛抓取到的页面与我们在浏览器中查看的源码是一样的,通常代码杂乱无章,而且其中还有很多与页面主要内容是无关的。由此,搜索引擎需要做三件事情:代码去噪。去除掉网页中所有的代码,仅剩下文本文字。②去除非正文关键词。例如页面上的导航栏以及其它不同页面共享的公共区域的关键词。③去除停用词。停用词是指没有具体意义的词汇,例如“的”“在”等。

  当搜索引擎得到这篇网页的关键词后,会用自身的分词系统,将此文分成一个分词列表,然后储存在数据库中,并与此文的URL进行一一对应。下面我举例说明。

  假如蜘蛛爬取的页面的URL是,而搜索引擎在此页面经过上述操作后提取到的关键词集合为p,且p是由关键词p1,p2,……,pn组成,则在百度数据库中,其相互间的关系是一一对应,如下图。

  

 

  2.消除重复与转载网页。

  每个搜索引擎其识别重复页面的算法均不相同,但是其中Mr.Zhao认为,如果将消重算法理解为由100个元素组成,那么所有的搜索引擎恐怕其80个元素都是完全一样的。而另外20个元素,则是根据不同的搜索引擎针对seo的态度不同,而专门设立的对应策略。本文仅对搜索引擎大体流程进行初步讲解,具体数学模型不多做讲解。

  3.重要信息分析。

  在进行代码除噪的过程中,搜索引擎并非简单的将其去除掉而已,而是充分利用网页代码(例如H标签、strong标签)、关键词密度、内链锚文本等方式分析出此网页中最重要的词组。

  4.网页重要度分析。

  通过指向该网页的外链锚文本所传递的权重数值,来为此网页确定一个权重数值,同时结合上述的“重要信息分析”,从而确立此网页的关键词集合p中每一个关键词所具备的排名系数。

  5.倒排文件。

  正如上文所说,用户在查询时所得到的查询结果并非是及时的,而是在搜索引擎的缓存区已经大体排好的,当然搜索引擎不会未卜先知,他不会知道用户会查询哪些关键词,但是他可以建立一个关键词词库,而当其处理用户查询请求的时候,会将其请求按照词库进行分词。那么这样下来,搜索引擎就可以在用户产生查询行为之前,将词库中的每一个关键词其对应的URL排名先行计算好,这样就大大节省了处理查询的时间了。

  简单来说,搜索引擎用控制器来控制蜘蛛爬取,然后将URL集与原始数据库进行保存,保存之后再用索引器控制每个关键词与URL之间的对应关系,并将其保存在索引数据库中。

  下面我们来举例说明。

  假若页面被切词成p={p1,p2,p3,……,pn},则其在索引数据库中由下图方式体现。

  

 

  上图是为了方便大家便于理解而做出来的,索引数据库实际上是搜索引擎中对性能要求最高的数据库,因为里面所有因素都会受到算法影响,所以实际上的索引数据库我觉得应该是由多维数组所组成的较为复杂的索引表,但其主要体现的大体作用与上图相同。

  三、查询服务。

  查询服务顾名思义,就是处理用户在搜索界面的查询请求。搜索引擎构建检索器,然后分三步来处理请求。

  1.根据查询方式与关键词进行切词。

  首先先把用户搜索的关键词切分为一个关键词序列,我们暂时用q来表示,则用户搜索的关键词q被切分为q={q1,q2,q3,……,qn}。

  然后再根据用户查询方式,例如是所有词连在一起,还是中间有空格等,以及根据q中不同关键词的词性,来确定所需查询词中每一个词在查询结果的展示上所占有的重要性。

  2.搜索结果排序。

  我们有了搜索词集合q,q中每个关键词所对应的URL排序——索引库,同时也根据用户的查询方式与词性计算出每个关键词在查询结果的展示上所占有的重要,那么只需要进行一点综合性的排序算法,搜索结果就出来了。

  3.展示搜索结果与文档摘要。

  当有了搜索结果后,搜索引擎就会将搜索结果展示在用户阅览的界面上以供用户使用。

  在这里,大家可以思考两个个问题。

  大家在搜索界面中经常发现百度展示的摘要是用户搜索词周围的,如果我不仅仅只看第一页,多往后翻一些页,会看到有些结果由于其目标页面本身并未完全包含搜索词,而在百度提取的摘要中标红词仅是部分搜索词,那么我们可以这样理解,百度在搜索词不被完全包含的情况下,是不是应该优先展现在分词结果中被百度认为较为重要的词呢?那么从这些搜索结果中我们是不是就可以看出百度分词算法的部分端倪呢?

  ②有时候页面中会多次出现搜索词,而百度搜索结果页面中在网站摘要部分仅会显示部分,通常这么部分是连续的,那我们是不是可以理解在摘要部分,百度会优先展示页面中它认为与对此搜索词最重要的部分呢?那么由此我们是不是可以揣度出百度针对页面除噪后对不同部分赋予权重的算法呢?

  这两个问题仁者见仁智者见智,做SEO的朋友们自己去探索与摸索吧,Mr.Zhao不敢在此无人子弟。

  四、现今百度的流程漏洞。

  请原谅我用流程漏洞来形容这个模块,但我不得不说,在如今点击器横行的天下,我觉得说是漏洞无可厚非。

  那就是除了上面三个大环节外,百度还构建了用户行为模块,来影响原始数据库与索引库。而影响原始数据库的,是百度的快照投诉,主要处理互联网暴利的一些行为,这点无可厚非。而影响索引库的,是用户的点击行为,这个设计本身也无可厚非,但百度算法的不成熟,导致了点击器作弊猖獗。

  百度的用户行为分析模块很简单,除了自身投诉的提交入口外,就是搜集用户在搜索界面的点击行为,如果此页面结果被大部分用户阅览,但没有产生点击,用户居然大部分选择点击第二页甚至更后面的页面,则此现象就会被百度工程师们所知道,则会根据这方面来微调算法。如今百度针对不同行业,其算法早已不同了。

  如果前两页内某个搜索界面被大量用户选择点击,则通常会在24小时候,这个搜索结果被大幅前提,甚至会被提升至第一名。

  五、搜索引擎大体流程图(加上用户行为分析器)

  

 

  以上就是我所对搜索引擎工作的基础流程与原理的理解。

  最后我想说广大的SEO从业者们应该已经发现无论是百度还是谷歌或者其它的商业搜索引擎,他们都会要求seoer们不要去在意算法、不要去在意搜索引擎,而是去多关注用户体验。这里我们可以理解成一个比喻,搜索引擎是买西瓜的人,而SEO们是种西瓜的人,买西瓜的人要求我们这些种西瓜的人不要关心他们挑选西瓜的标准,而是多多在意怎么去种出好西瓜,而对于什么样的西瓜是他们需要的好西瓜,他们又往往用一些模糊的概念掩盖过去。诚然,这样搜索引擎得到的结果将会多样化,他们可以在挑选结果时有更多的选择,能够最大限度的维护这些商业搜索引擎自身的利益,但是请其也不要忘记,我们这些种西瓜的也要有口饭吃。

  Mr.Zhao始终坚持白帽SEO,深入研究UE,做对用户有意义的站。但与此同时,我也坚信身为seoer,我们还应该对算法有及时了解,以便我们做出的站在符合用户口味的时候,更能在搜索引擎中得到良好的展现,因为毕竟seoer也是人,也希望过得好一点。

  今后我将在其它的文章中逐步剖析搜索引擎的各个环节,并发表在我博客“搜索引擎原理”的栏目下,希望对大家有所帮助。

  来源:Mr.Zhao的博客

本文标题:搜索引擎基本工作原理-LUB:LUB-基本概述,LUB-工作原理
本文地址: http://www.61k.com/1141851.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1