新鲜发布:
优化蜘蛛抓取,提高网站收录
© 长沙seo / 2010-6-22 / 17:36 / 网站优化
蜘蛛是搜索引擎的核心之一,与排序算法一样,揭开面纱之前,让我们如此着迷。
中型及大型网站往往有数十万上百万的内容等待搜索引擎抓取,编入索引,带来流量。可是情况往往不像我们想像中的那么顺利,最近看了国平的如何规划好网站的URL,明白了很多东西。蜘蛛的爬行抓取效率决定了能最多收录网页的数量。
从下面这个图可以看出来,(谷歌管理员工具内抓取统计信息),每天抓取的网页与下载的数据量是成正比的,除了提高网站服务器的加载速度外,让蜘蛛更高效的工作就变的非常重要。

解决这个问题之前,我们可以先尝试用HTTrack Website Copier抓取整个网站,网站结构比较清晰的时候抓取会非常顺利,当有问题时,你会发现有很多错误的网页、乱码以及完全无意义的内容正在被抓取,正是这些内容让你的蜘蛛变慢了。互联网的资源是无限膨胀的,而蜘蛛的时间有限,它到达你的网站一次只能抓取到一部份有意义的内容,所以你的收录也迟迟上不去。
我试着抓取我这个博客,发现最先被抓取的竟然是这些内容:
http://www.pyy1990.cn/PLUGIN/HaphicFeedsGatherer/theme/default/
http://www.pyy1990.cn/catalog.asp?page=2
http://www.pyy1990.cn/feed.asp?cmt=366
http://www.pyy1990.cn/PLUGIN/LightBox/Code/lightbox
http://www.pyy1990.cn/catalog.asp?tags=%E9%95%BF%E6%B2%99SEO
http://www.pyy1990.cn/function/c_urlredirect.asp?url=h8t3t3p4%3A8%2F4%2F7w6w4w9%2E6p5u2j5i7a4%2E9c2o6m8
http://www.pyy1990.cn/cmd.asp?act=cmt&key=909d1606
http://www.pyy1990.cn/upload/201006120947292383.jpg
……
我的博客不靠图片搜索来流量,所以我的图片不需要被抓取; 插件目录对看我博客的人来说完全无意义;分页链接也不需要抓取;……
但是蜘蛛是实实在的爬过了,浪费了大量的时间。还好我的内容只有几百页,如果拥有十万上百万,并且每天都保持一个量级在不断的增加的时候,也许蜘蛛永远都无法爬遍整个网站。也就是说你被编入索引的网页永远都会比实际的内容少很多很多。
于似乎,我们要用一些方式阻止它去爬那些无用的内容,有三种方式:
- Robots.txt文件内屏蔽这些链接
- 网页内的meta属性屏蔽链接
- 链接加上rel=nofollow属性
我上面的这些链接是我的博客里比较常用的无用内容,你的网站也许并不一样,但是要记住一点,你的内容不是让搜索引擎收录的越多越好,必须是有价值的内容才行。
举个例子说,博客的TAG页,http://www.pyy1990.cn/catalog.asp?tags=%E7%99%BE%E5%BA%A6 这样的对用户是否有用?博客的TAG将一些内容聚合在一起,的确方便了用户浏览关于某个主题的内容,有点类似于门户网站的专题页面。但是我认为TAG如果处理不当,就制造了很多无用的网页,在写每几篇博客日志时表达的是同一个主题,但用的TAG不一样,如baidu和百度。简而言之,如果不能规范,那就是在制造垃圾页面。恰好我发现我的是属于这种类型的,所以我屏蔽了所有TAG、分页链接、搜索页、图片目录、Feed文件、JS文件目录等,有兴趣的朋友可以看看我的robots.txt文件。
我想说,我对这件事非常极端,我的一个网站中,内容页的导航链接都用了nofollow,所以才上有上面一天抓取8千多网页的情况出现,我的网站只有不到2万的内容。我建议您把网页底部的几个链接,比如“关于我们、企业简介”之类的链接用上nofollow,如果不需要图片来流量,建议屏蔽图片目录,屏蔽无关目录,屏蔽一切无关的内容。
你会发现蜘蛛真的越来越活跃了,同时,收录也哗哗的上升了 :)
ps: 同时我发现,像这种评论链接Httrack也会抓取 ,何解?http://www.pyy1990.cn/other/382.html#cmt780
© 小彭学SEO文章内容皆为人工编辑,如有错误,敬请指正。





2010-8-29 20:18:06
SEO新手来跟博主取经来了,呵呵。
2010-8-12 10:17:27
哈哈、别人都跟你学习,对你感谢了。我也帮你支持下。广州双乾易支付(95epay),非3D铂金信用卡在线支付收款通道,成功率90%,可接个人和公司,支持visa、mastercard.国内首家实现站内支付,大大提高网站订单支付的转换率。Q:1187928155 tel:13413815912 小曾
2010-8-9 11:25:34
好文章 很好的提示 收藏了
2010-8-4 9:38:26
好文章,
好好的看看,
谢谢,博主分享!
2010-8-4 9:36:59
谢谢,博主分享!
这个非常的重要,谢谢!
2010-7-29 11:47:06
学习了 不错不错
2010-7-5 14:07:31
奇怪,我也用这款工具抓取我的网站,但是我找不到载入文件的先后顺序。
我试着抓取我这个博客,发现最先被抓取的竟然是这些内容:
http://www.pyy1990.cn/PLUGIN/HaphicFeedsGatherer/theme/default/
http://www.pyy1990.cn/catalog.asp?page=2
http://www.pyy1990.cn/feed.asp?cmt=366
http://www.pyy1990.cn/PLUGIN/LightBox/Code/lightbox
http://www.pyy1990.cn/catalog.asp?tags=%E9%95%BF%E6%B2%99SEO
http://www.pyy1990.cn/function/c_urlredirect.asp?url=h8t3t3p4%3A8%2F4%2F7w6w4w9%2E6p5u2j5i7a4%2E9c2o6m8
http://www.pyy1990.cn/cmd.asp?act=cmt&key=909d1606
http://www.pyy1990.cn/upload/201006120947292383.jpg
这个你怎么看的?
2010-6-30 21:09:49
学习啦··呵呵
2010-6-23 17:13:29
头一次认识到这个问题,非常感谢
2010-6-23 7:10:52
一直以来都很欣赏你对SEO的专研精神和执行力!