|
本人2个小站分别是2月底和3月初上线,其中一个站在上线第2天百度就成功收录,另一个大约在第3天百度也收录进去了,此时google还完全没动静。新站考察期,收录得慢点还是可以理解的,这是我当时的想法。
一直到3月中旬,百度也就收录了2个站的首页,yahoo勤快点,收了大约100个页面。这时候我就有点迷糊了,在我印象中,百度是个难伺候的主,一般我的网站,百度Vs谷歌的收录数量大约在1:3左右,感觉百度的要求比google要严格得多。为啥这次对我的新站考察期这么长?于是用同样的网站程序,重新申请域名在另外的空间上架站,3天后百度google均正常收录,看来google不收录我的站是有原因的。
打开IIS日志检查googlebot的爬行记录,看到googlebot只有访问网站首页的记录,完全没访问其他页面的记录。并且日志如下反映:
2009-03-01 00:07:10 W3SVC 192.168.0.3 GET /index.html - 80 - 222.73.247.122 Googlebot/2.1+(+) 200 0 0 1236
基本上googlebot每天从00:07左右开始到我的站爬行。但是全部的爬行记录都是针对首页的,在爬行记录的最后返回代码均为200 0 1236。
在这里,200 0 1236代表的是什么?我查遍了google yahoo baidu ,谈论200 0 64的很多,可就是没有1236的解释。这段时间人真的是要抓狂!后来终于发现了一篇文章谈到了1236的含义。他是这样解释的:
Google降权与200 0 1236蜘蛛状态码 前几天以为自己服务器上的站点所有在Google降权,在Google的Site结果里出现几种奇怪现象;
1.收录大减。
2.所有网站首页Google捉取不完整(这是第一见到的奇怪现象)。
3.网站IIS日志分析看到(200 0 1236 蜘蛛状态码)这也是第一次见到这。
从以后分析网站所有给Google降权,由于群站引起,都是猜想起,开始自己测试找到原因,三天后更换了服务器ISP商也换了IP,最后的测试结果是更换了IP后问题依然,肯定了这情况与IP无关,之后再测试是否与自己网站有关,之后把自己的某一些网站转到了外省的空间里,网站又变得了收录正常,在此也肯定了不是自己网站的问题,之后觉得就是自己服务器可能设置了什么或ISP商哪里设置的问题。
一般正常的蜘蛛状态码200 0 0或 200 0 64为正常的,出现了200 0 1236这情况在论坛里有人说是1236 本地系统已经终止网络连接我也查了相关资料原来是指Win系统网站错误提示的意思,那自己就肯定了是这么回事,当Google蜘蛛访问网站首页时,当他只访问了网站的几K后,网络就终止了他的访问。就出现了这一种情况。结果发现不是网站给Google集体降权,200 0 1236 蜘蛛状态码也显示了不是自己网站问题,而是ISP商的硬件防火墙所引起的。
既然有可能是防火墙,而且极可能是防火墙造孽,那就验证一下防火墙是否对googlebot的正常抓取进行了拦截。但是又不能把服务器直接放置在公网上进行测试,那会成肉鸡的。最后我用的读取网站的head和body记录。在google不收录期间,在myip查询我的网站,head和body全部查询不出来,总是显示error ,当我把服务器直接接入到公网上,再去myip查询我的网站,head和body数据读取正常!看来确实是防火墙的问题。
接下来的任务就简单了,4月2号上去升级防火墙软件,然后再反复用myip查询网站测试,直到当你修改网站的关键字或者网站描述后,在myip能正常显示你网站的数据为止。防火墙搞定后,继续观察IIS日志,200 0 1236已经完全消失,取代的全部是200 0 0 的正常访问记录。3号去google查了下,没收录,4号去查,还是没,要崩溃了。难道是windows server的问题?5号早上起床后,下定决心准备去重装服务器系统,在下手前我去google上site了一下,-vogue.com收录了17页。额滴神呐,终于收录了。yahoo都收了1000+了,建站也超过1个月了,google的大更新也错过了,他终于收录了。我不知道应该是种什么样的心情。
在解决google不收录网站的问题期间,查阅了大量的资料,比如IIS日志里win32代码(Windows网络消息号码)详细列表,还有一些其他的资料,我放在自己的小论坛里了,大家要是有兴趣,可以去查一下,在这里就不多说了。
最后给我可怜的2个站做点小宣传吧,希望大大别K我。
风尚中国
189小说搜索网
有同类站的,一起做个链接吧,在没被google收录期间,出去找友情链接碰了好多钉子。不是google瞧不起我的站。确实是有原因的。 |
|