自从上次向Google提交本博客后,终于在2007年2月18日被Google收录。很凑巧的是在2月18日,Google对大多数网站的收录数量明显上升,估计Google做了某些算法的调整。
2007-2-21 google收录 13项 狗狗link 0项<<<------- 有11页是补充材料。
2007-2-20 google收录 5项 狗狗link 0项
2007-2-19 google收录 5项 狗狗link 0项
2007-2-18 google收录 5项 狗狗link 0项 <<<------- 显示被Google收录,但有4页是补充材料。
2007-2-17 google收录 0 项 狗狗link 0项
......
2007-2-6 1 google收录 0 项 狗狗link 0项
对这样的结果,我有这样几个疑惑:
- 为什么有这么多补充材料?
可能原因:
a). 因为收录的多为Tags页面,因为文章数量不多,页面相似度很高,所以相似的页面被列为
b). 服务器出现过问题,正好被Google蜘蛛撞上。(首页也被列为补充材料,而首页不可能产生C中的问题。)
c). 文字篇幅较短,被认为是相同页面。 - 发现.html静态页面收录很少,相反在被收录的内容中,带“?”的动态链接收录比较多。
这里总结下Google补充材料的产生原因:
- 服务器原因:Google蜘蛛是按照页面链接进行爬行。第一次Google蜘蛛爬上A页面后,A页面就被成功收录。当Google蜘蛛第二次爬上此链接,因为服务器等原因出现404错误(无法找到该页面)后,A页面即被列为“补充材料”,放在Google的副索引库中。当下次蜘蛛发现该链接恢复后,A页面才能摆脱“补充材料”,进入主索引库。
- URL问题:当一个网站拥有2个域名时,例如www.seotest.cn 和seotest.cn,2个域名指向同一个网站,那其中一个域名收录的页面将被列为“补充材料”。我们可以通过Google网站管理员工具控制搜索结果中显示哪一个链接,见下图:
- 网站大改版:当您对网站做了一次大改版,例如换了整套模板,原先的URL从动态变成了静态,Google蜘蛛发现后,将会收录改版后的新页面,原先的动态URL页面将被列为“补充材料”。
- 抄袭转载:例如早晨SINA发表了一篇新闻,下午就被很多网站转载。那些没有什么权威性、PR不高、主题散乱的网站中的转载新闻,将被列为“补充材料”。Google 这样做是为了提高用户的搜索体验,在搜索结果中,前几页都是相同的内容,那种感觉好比在垃圾桶找东西,呵呵。
