Archive for April 25th, 2006

Ajax让搜索引擎抓瞎

Tuesday, April 25th, 2006

如果抓虾坚持继续使用Ajax在客户端动态生成网页的话,那么可能在Google中搜索“抓虾”大概永远只能返回1到2个链接。Ajax让搜索引擎彻底“抓瞎”。

由于网页在下载到客户端后由JavaScript动态生成,在用浏览器“查看源代码”是看不到当前显示的网页内容的,仅仅是一些链接和一堆included JavaScript。Crawler从主页进去后,转了几圈除了首页、“关于我们”之外将一无所获,因为几乎不会有什么Web crawler会在server端运行爬到的JavaScript代码。我猜Googlebot在抓虾的停留时间不会超过30秒(请虾米们查看一下你们的Web日志)。

当然,让不让crawler停留完全由网站决定,从“http://www.zhuaxia.com/robots.txt”可以看出抓虾的技术人员是很专业的,屏蔽了几个系统目录的访问权限。其实,由于上述原因,这个robots.txt文件目前来说略显多余,能挡住http://www.koders.com/就很好了。