61阅读

禁止搜索引擎收录-人肉搜索被立法禁止合理否?

发布时间:2018-02-04 所属栏目:禁止搜索引擎抓取

一 : 人肉搜索被立法禁止合理否?

  得去年那个因为在摄影镜头前抽了包天价烟、戴着个高价表而被网民人肉搜索、最终搞到被免职的南京江宁区房产局局长周久耕吗?记得那个吓哭带路去洗手间的小女孩,随后又口吐狂言,最终被人肉搜索而免职的深圳海事局局长林嘉祥吗?有多少人能通过人肉搜索这个号称为“网络世界暴政”的检验?“他成名了,他出事了,因为他被人肉搜索上了。”这是过去几年的经验。

  然而,在江苏徐州,这种行为今后要受到法律追究了。前天,《徐州市计算机信息系统安全保护条例》经江苏省十一届人大常委会第七次会议通过,将于今年6月1日起生效。该条例对计算机安全等级管理、保护措施、禁止性的行为、法律责任等,作出了详尽规定,特别是对近来社会广泛关注的“人肉搜索”,该条例明确“说不”。

  人肉搜索威力无穷,从最初搜索那个炸死猫的大学生,到不久前搜索为房市托市的周久耕,网络再一次扮演了道德审判的作用。然而,由于人肉搜索通常都是在网上提供或公开他人或单位信息的行为,而这些信息往往又涉及到个人隐私,所以呼吁禁止的声音也越来越多。去年,全国人大常委会委员朱志刚就提出,人肉搜索泄露公民姓名、家庭住址、个人电话等基本信息,是严重侵犯公民基本权益的行为,建议将人肉搜索行为在刑法中予以规范。

  诚然,正如江苏省人大法工委有关负责人所说,个人隐私包括个人尤其是女性的年龄,个人或家庭财产及构成,收入状况,住所,任职单位的待遇,特别是人际交往等等,都受法律保护。可是这里的个人通常指向非公共人物,也就是普通老百姓。作为公共人物,比如官员,其个人信息恰恰是要公开的。而由于我们缺少对公共人物的信息公开,像官员财产申报制度迟迟不见动静,在这种背景下,网友不得不借助人肉搜索,对周久耕式官员进行民间的网络式公开。这种公开既是公共利益的需要,因为公共人物往往与公共利益、政治生活联系密切,其个人隐私范畴要比普通老百姓小得多;同时还可以起到网络监督的作用,国家预防腐败局每天都有专人搜集网上舆情,处理核实线索,很多时候也是借助于网民的人肉搜索力量。

  人肉搜索的泛滥从另一个方面也折射出个人信息保护法的缺位。网民之所以能在网络上搜索到个人隐私类信息,很大程度上缘于国家机或者金融、电信、交通、教育、医疗等单位的信息泄露。一项调查显示,88.8%的人有过信息被泄露的经历。其中,泄露个人信息的前三位机构是电信机构、招聘网站和猎头公司、各类中介机构。因而,与其立法禁止人肉搜索,倒不如让《个人信息保护法》尽快出台,只要从源头堵住个人信息的泄露,所谓人肉搜索也就自然失去威力。

  其实,徐州市立法禁止人肉搜索也犯了低级的网络知识错误。在徐州不可以人肉搜索,可是如果在徐州以外的其他地方人肉搜索徐州的官员,算不算违法?如果不算,那就根本禁止不了人肉搜索。无可否认,人肉搜索虽然可恶,但这种可恶是建立在公共人物信息不公开、非公共人物信息缺乏保护的基础上。从这个角度而言,立法禁止人肉搜索还须三思而后行,否则它很容易为某些不法之徒、某些贪官提供一个合法的保护伞,让周久耕、林嘉祥之流逃脱正义的监督。

二 : 搜索引擎收录网页的四个阶段分析

网页收录第一阶段:大小通吃
搜索引擎的网页抓取都是采取「大小通吃」的策略,也就是把网页中能发现的链接逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来,这种方式虽然比较古老,但效果很好,这就是为什么很多站长反应蜘蛛来访问了,但没有收录的原因,这仅仅是第一阶段。

网页收录第二阶段:网页评级
而第二阶段则是对网页的重要性进行评级,PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序,这就是各位热衷的「发外链」,据一位朋友了解,在中国「发外链」这个市场每年有上亿元的规模。    

爬虫的目的就是去下载网页,但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。

网页收录第三阶段:OCIP策略
OCIP策略更像是PageRank算法的改进。在算法开始之前,每个网页都给予相同的「现金」,每当下载某个页面A后,A将自己的「现金」平均分给页面中包含的链接页面,把自己的「现金」清空。这就是为什么导出的链接越少,权重会越高的原因之一。

而对于待抓取的网页,会根据手头拥有的现金多少排序,优先下载现金最充裕的网页,OCIP大致与PageRank思路一致,区别在于:PageRank每次要迭代计算,而OCIP则不需要,所以计算速度远远快于PageRank,适合实时计算使用。这可能就是为什么很多网页会出现「秒收」的情况了。

网页收录第四阶段:大站优先策略
大站优先的思路很直接,以网站为单位来衡量网页的重要性,对于待抓取的URL队列中的网页,根据所述网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接。其本质思想是「倾向于优先下载大型网站URL」。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站,其网页质量一般较高,所以这个思路虽然简单,但有一定依据。

实验表明这个算法虽然简单粗暴,但却能收录高质量网页,很有效果。这也是为什么许多网站的内容被转载后,大站却能排到你前面的最重要原因之一。

三 : 防止网页被搜索引擎爬虫和网页采集器收录的方法汇总

下面的这些方法是可以标本兼治的:
1、限制IP地址单位时间的访问次数
分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。
弊端:一刀切,这同样会阻止搜索引擎对网站的收录
适用网站:不太依靠搜索引擎的网站
采集器会怎么做:减少单位时间的访问次数,减低采集效率

2、屏蔽ip
分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可疑Ip。
弊端:似乎没什么弊端,就是站长忙了点
适用网站:所有网站,且站长能够知道哪些是google或者百度的机器人
采集器会怎么做:打游击战呗!利用ip代理采集一次换一次,不过会降低采集器的效率和网速(用代理嘛)。

3、利用js加密网页内容
Note:这个方法我没接触过,只是从别处看来
分析:不用分析了,搜索引擎爬虫和采集器通杀
适用网站:极度讨厌搜索引擎和采集器的网站
采集器会这么做:你那么牛,都豁出去了,他就不来采你了

4、网页里隐藏网站版权或者一些随机垃圾文字,这些文字风格写在css文件中
分析:虽然不能防止采集,但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字,因为一般采集器不会同时采集你的css文件,那些文字没了风格,就显示出来了。
适用网站:所有网站
采集器会怎么做:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。

5、用户登录才能访问网站内容 *
分析:搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。
适用网站:极度讨厌搜索引擎,且想阻止大部分采集器的网站
采集器会怎么做:制作拟用户登录提交表单行为的模块

6、利用脚本语言做分页(隐藏分页)
分析:还是那句,搜索引擎爬虫不会针对各种网站的隐藏分页进行分析,这影响搜索引擎对其收录。但是,采集者在编写采集规则时,要分析目标网页代码,懂点脚本知识的人,就会知道分页的真实链接地址。
适用网站:对搜索引擎依赖度不高的网站,还有,采集你的人不懂脚本知识
采集器会怎么做:应该说采集者会怎么做,他反正都要分析你的网页代码,顺便分析你的分页脚本,花不了多少额外时间。

7、防盗链措施 (只允许通过本站页面连接查看,如:Request.ServerVariables(“HTTP_REFERER“) )
分析:asp和php可以通过读取请求的HTTP_REFERER属性,来判断该请求是否来自本网站,从而来限制采集器,同样也限制了搜索引擎爬虫,严重影响搜索引擎对网站部分防盗链内容的收录。
适用网站:不太考虑搜索引擎收录的网站
采集器会怎么做:伪装HTTP_REFERER嘛,不难。

8、全flash、图片或者pdf来呈现网站内容
分析:对搜索引擎爬虫和采集器支持性不好,这个很多懂点seo的人都知道
适用网站:媒体设计类并且不在意搜索引擎收录的网站
采集器会怎么做:不采了,走人

9、网站随机采用不同模版
分析:因为采集器是根据网页结构来定位所需要的内容,一旦先后两次模版更换,采集规则就失效,不错。而且这样对搜索引擎爬虫没影响。
适用网站:动态网站,并且不考虑用户体验。
采集器会怎么做:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。如果多于10个模版了,既然目标网站都那么费劲的更换模版,成全他,撤。

10、采用动态不规则的html标签
分析:这个比较变态。考虑到html标签内含空格和不含空格效果是一样的,所以<   div >和< div >对于页面显示效果一样,但是作为采集器的标记就是两个不同标记了。如果每次页面的html标签内空格数随机,那么
采集规则就失效了。但是,这对搜索引擎爬虫没多大影响。
适合网站:所有动态且不想遵守网页设计规范的网站。
采集器会怎么做:还是有对策的,现在html cleaner还是很多的,先清理了html标签,然后再写采集规则;应该用采集规则前先清理html标签,还是能够拿到所需数据。

本文标题:禁止搜索引擎收录-人肉搜索被立法禁止合理否?
本文地址: http://www.61k.com/1134581.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1