61阅读

禁止搜索引擎收录-探寻百度搜索引擎收录的一个奇怪现象

发布时间:2017-08-05 所属栏目:禁止所有搜索引擎收录

一 : 探寻百度搜索引擎收录的一个奇怪现象

  今天上午懒蚂蚁在百度中输入“推客”时,偶然间发现了一个非常奇怪的现象,令我百思不得其解。

  在百度中输入“推客”二字,前三名结果如下:排在第一位的标题是:推客网-网络公关,快乐传播;排在第二位的标题是:网站推广 |网络推广|网络营销|seo|网站优化|网站推广方法|推客|推..;排在第三位的标题是:解放军316医院——泌尿外科中心、妇产科中心;那么奇怪在哪呢?大家看看,排在前面的两位都有关键词“推客”,而排在第三位的没有关键词“推客”,那么他为什么排名这么靠前呢?

  这个现象让我有了一种想分析原因的冲动。我打开了这个网站,整站的内容没有任何关于“推客”的,也没有出现“推客”这个关键词。晕,接着我查看首页的源文件,除了上述的网页标题外,整个首页甚至一个关键字都没有,连页面描述也是零。就是这样的一个网站怎么会排到第三位呢。

  从目前百度对网站的严格审查来看,基本排除该站用各种手段作弊的可能,至于人为干预也基本排除在外。那为何会出现这种结果呢。

  接着我又从域名进行分析,排名第一的域名是一个广告联盟www.tuiker.net,排名第二的网站叫“推客联盟”是个不错的推广学习社区www.mayi18.com,而第三名的域名是www.bjtuike.cn,排在第一的既有关键词,在域名中也有推的拼音tui,而第二名仅有关键词,拼音中未出现关键字的拼音,莫非百度把汉语拼音也作为搜索关键词?如果这样的话,选择一个热门关键词的拼音域名来做seo是不是可以更容易的被引擎收录呢?如果真是这样的话,域名的选择真要加入这个条件了。不知道其他引擎什么情况,迷茫中,喜欢探讨的朋友可以试试。

  本文作者:懒蚂蚁 转载请注明。

二 : 隐私保护搜索引擎DuckDuckGo在天朝被禁,原因不明

DuckDuckGo隐私保护搜索引擎一直都活在Google阴影之下,不过现在,它终于可以和Google等公司加入到“同一阵营”了,因为它们在中国都被禁了。

上周末,DuckDuckGo创始人兼CEO Gabriel Weinberg确认,早在数周之前,DuckDuckGo就已经被禁。Weinberg表示,他尚不确定自己为什么会被挡在中国的互联网审查制度之外。他在Twitter上写道:

@SirSteven@duckduckgo@jasonqng就目前所知,我们的确被封了

在Great Fire网站搜索duckduckgo.com,会发现早在九月四日就被封了。后来Great Fire进行了测试,定期ping了一系列URL,并以此来确认该搜索引擎是否被封,得出的结论是,目前在中国无法访问DuckDuckGo。

隐私保护搜索引擎DuckDuckGo在天朝被禁,原因不明_duckduckgo

DuckDuckGo过去的十八个月取得了很大进步,自从斯诺登爆出“棱镜”项目之后,该搜索的用户群增长很快。截至2013年底,搜索量已经突破了10亿。和Google相比,这个数字显(www.61k.com)然还非常渺小。Google每月有超过1000亿查询,但对于那些重视隐私的用户而言,DuckDuckGo已经成了一个可靠的搜索选择。

不仅如此,在今年初DuckDcukGo也成为了苹果Safari浏览器默认的隐私保护搜索引擎。然而,不经意的高曝光也导致了它成为了中国的“目标”。目前尚不清楚中国业务在DuckDuckGo总业务量的比例,应该不会太高,因此本次“封锁事件”应该不会对他们有太大影响,另外在中国iOS 8用户也无法将DuckDuckGo设置为默认搜索引擎了。

三 : robot禁止搜索引擎收录的方法

robots.txt文件

搜索引擎使用sphider程序自动访问互联网上的网页并获取网页信息。(www.61k.com)sphider在访问一个网站时,会首先检查该网站的根目录下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定sphider在您的网站上的抓取范围。您可以在您的网站上创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分

robots.txt文件格式

“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL,or NL作为结束符),每一条记录的格式如下所示:

“<field>:<optional space><value><optional space>”

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行。

User-agent

该项的值用于描述搜索引擎robot的名字。在“robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到“robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该值的值为*,则对任何robot均有效

Disallow

该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问

Allow

该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许被robot访问的

通配符

sphider支持使用“*”和“$”来模糊匹配URL

shell脚本禁止搜索引擎抓取

禁止搜索引擎抓取网站的网址可以在每个网站的根目录下放置如下的robots.txt文件:

User-agent: * Disallow: /

一键部署的shell脚本:

#!/bin/bash #网站根目录定义 root_dir=("/var/www/") #构建爬虫规则 for dir in ${root_dir[*]} do 	#删除过期的robots.txt文件 	if [ -f $dir/robots.txt ]; then  rm -r $dir/robots.txt 	fi 	#增加新的爬虫规则 	echo "User-agent: *" >$dir/robots.txt 	echo "Disallow: /" >>$dir/robots.txt 	#修改权限 	chown www-data.www-data $dir/robots.txt done

本文标题:禁止搜索引擎收录-探寻百度搜索引擎收录的一个奇怪现象
本文地址: http://www.61k.com/1071956.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1