正所谓林子大了,什么鸟都有;
再加上互联网号召大众“资源共享”;更有甚者,各大搜索引擎未达到智能的地步,什么内容的网站它们统统都收录!
这就导致了,原创网站的内容和伪原创网站、采集站的部分内容基本一致,其结果就是:原创网站的收录排名并非有盗版网站的高;这就是人们常说的“不分主次、颠倒乾坤”。
排名上的纠纷,已经让众多站长焦头烂额;
但是,还有令人更讨厌欲唾骂更让人想捅几刀的厚颜无耻的行为发生;原创站长每天辛辛苦苦做的原创内容,却让采集站使用采集程序在短短时间内轻而易举占为己有……唉,这不仅是个别站长道德有问题、心态有变化、行为有所偏激的问题,更是由于环境的影响、搜索引擎的不智能怂恿所致,结果,让全互联网出现了犹如雨后春竺般的“朝气蓬勃”般的“资源共享”!
说来说去,除了原创站长没有责任之外,其它的人或多或少也存在芝麻小的责任,就连那编写采集程序的人来说,“刀”是您造的,拿捅人的虽然不是你,但是,事件频繁发生,您也应该感到愧疚几分。
得了得了,越说就越多,说多了还得罪人,到最后卖好不讨好,下面,我们就一起来学习如何防止网站被采集!
一般情况下,采集站通过收集、分析原创网站的链接地址,从而可以查看到相应页面的HTML源代码,通过稍微修改即可占为己有!
从理论上来讲,很难防止被采集,我们只能采用差强人意的办法来阻止这种行为的发生,其效果虽然不是很好,但是总比不防的好!
很多网友曾经提到过,使用JS调用、网页中使用框架、或者使用无刷新技术等方法避免网站被采集,这些,都不失为一种比较好的方法;
但是,网站需要被搜索引擎收录,因此,以上的方法,得此而失彼,颇有瞻前不顾后的遗憾。
本文,我们介绍一种方法,即不会影响网站被收录,同时又在一定程度上能够禁止网站被采集的方法。
以上代码仅针对asp.net+c#版的网站,如果是其它语言的网站,其自行改之。
以上代码,应用到的原理就是:
①通过判断对方浏览您的网页,是否使用浏览器,如果不是,就无法打开网页而进入错误的提示的页面;
②通过域名得知采集站的IP,将其收集起来,然后判断网页访客的IP是否是采集站的IP,如果是,将不能打开网页而进入错误提示的页面!(采集站的IP,只能通过平时观察以收集而获取,难得有点大!)
下面谈谈如何运行这段代码:
①在页面中首先引用:using System.Net;
②在 Page_Load事件中调用以上的函数;
protected void Page_Load(object sender, EventArgs e)
{
RefuseVisit();// 拒绝采集站访问
}