SEO-搜索引擎优化实验室

上海SEO顾问(中国最具原创精神的SEO博客)

« 为1000个站长服务了-2008上海草根站长大会Google使用旧信息的现象实例 »

搜索引擎如何判断核心内容的思考

分享按钮
搜索引擎蜘蛛把页面代码送回搜索引擎服务器后,SE是如何判断页面中最核心的内容呢?

先说下Kyw认为的搜索引擎运作过程的前几个步骤:
1. 蜘蛛下载A页面,送回服务器;
2. 服务器寻找A页面的核心内容位置,然后去除HTML代码;
3. 寻找网页核心内容;
……

我不确定GOOGLE、百度、YAHOO!是否真的有“判断核心内容”这个步骤,但我相信一定有类似的运算机制,因为如果没这个步骤,搜索引擎将耗费大量资源做重复运算。当然KYW不是搜索引擎工程师,下面只是对搜索引擎的一些思考。


SE面对一整页HTML代码,如何判断核心内容在哪里呢?
第一步:拿该页面和同域名、同目录、同文件名格式的页面做对比,去除相似的部分。经过这个步骤,头部的导航条、底部的版权信息、固定位置的广告就被去掉了。我估计搜索引擎在每增加一个新网站的时候,会建立一个对比模板来提高工作效率。如果网站经常改版,在改版刚开始的期间,搜索引擎还没反应过来,就可能造成新收录网页的排名不理想。

第二步:去掉有大量链接的部分。经过这步,“相关文章”“推荐文章”等都被去掉了,剩下一些包含文字内容的代码。

第三步:在剩余的代码中判断哪段标签(可能是DIV、TABLE、P或其它标签)中的文字内容最多,因为一般核心内容的文字量会比较多。

每个页面经过上面3个步骤,应该就能顺利的判断出核心内容所在的位置。经过这样的思考,我们也许可以这样总结:
1. 同目录下的页面,最好模板一样。
2. 核心内容文字量不能太少,特别是企业站和B2C网站,只放价格和包含大量说明文字的图片是很不好的。
3. HTML代码中如果错误很多,可能会影响排名,因为搜索引擎可能在判断核心内容的时候出差错。
4. 期待你的补充 ^_^

Kyw把SEO的主要工作理解成帮助搜索引擎更高效的理解网站及页面的内容,所以建议大家有事没事琢磨琢磨搜索引擎,问题想透的越多,SEO的手法也就更加随机应变了。当然也没必要钻牛角尖,有想不通的问题就到我这留言吧。

分享按钮

 作者:Kyw@上海SEO搜索引擎优化实验室
 原文链接:http://www.seotest.cn/blog/se-panduan-hexin.html
 版权所有,转载请以链接形式注明作者及原始出处。

好文章就要收藏:


  • 相关文章:
  • quote 1.gsat2002
  • 呵呵 最近也在想这个问题,新弄了个qq空间代码站,这种站核心内容肯定不是很多,但gg收录很正常,百度还没收,我感觉description里的描述应该会对搜索判定核心内容起一定作用,kyw怎么卡呢?
    Kyw 于 2008-1-16 14:01:33 回复
    description人为因素太多了,搜索引擎也许更愿意自己判断吧,当然认真写description对用户还是很好的。
  • 2008-1-16 14:01:33 回复该留言
  • quote 2.代写论文
  • http://www.kenfairy.com
  • 如果是这样的话,对关键字布局就有了些新的认识了
    Kyw 于 2008-1-16 14:02:11 回复
    是的,核心内容处多些关键词要比其他位置多关键词效果好。
  • 2008-1-16 14:02:11 回复该留言
  • quote 3.NCT
  • http://www.4399ol.com
  • 有一本介绍SE原理的书,搜狐技术副总裁推荐的,里面写的蛮详细的。
    Kyw 于 2008-1-16 14:02:43 回复
    是不是《搜索引擎原理、实践与应用》?
  • 2008-1-16 14:02:43 回复该留言
  • quote 4.老菜鸟
  • 你的猜想告诉我们 将源码和文本分离更加重要了,应该把网站脱得更干净一些 :-)
    Kyw 于 2008-1-16 17:04:25 回复
    互联网刚开始,没HTML那会,也许就是TXT纯文本的。HTML代码只是实现排版、颜色等功能而已。
  • 2008-1-16 17:04:25 回复该留言
  • quote 5.影子
  • http://www.yingzichuanshuo.cn
  • 那对关键词的修饰,如加粗,斜体又有几分重要性呢?
    Kyw 于 2008-1-17 9:16:36 回复
    关键词加粗,适当就可以,没必要见关键词就加粗。
  • 2008-1-17 9:16:36 回复该留言
  • quote 6.text
  • 哦,原来如此。那http://www.eeo.com.cn这个网站,我想在百度搜索“财经新闻”能出现在首页,是不是要在div里面多写些“财经新闻”呢?
    Kyw 于 2008-1-17 22:15:46 回复
    可以这么理解,但语言组织要合理,不要故意堆砌。
  • 2008-1-17 22:15:46 回复该留言
  • quote 7.text
  • 还有个问题就是我在google的排名从第二名逐渐跌落到第6名,而且google隔2天就更新下我的站,为什么我什么都没变动的情况下又给我排到第一名了?纳闷。
    Kyw 于 2008-1-17 22:16:51 回复
    很正常,你的排名也和其他千百家网站有关。
  • 2008-1-17 22:16:51 回复该留言
  • quote 8.text
  • 这个博客我来一次就记住了,估计跟域名也有关系。不过整体风格看着很舒服,不乱。我没事就来转转。多多指导!。。。。
    Kyw 于 2008-1-17 22:17:57 回复
    哦! 哈哈~~~ 说明我的域名还不错 谢谢 ^_^
  • 2008-1-17 22:17:57 回复该留言
  • quote 9.seohelper
  • http://seohelper.cn
  • 我想搜索引擎在判断核心内容时应该会有一个核心关键词的提取过程,至于如何提取,可能会考虑很多因素,如词密度、词性等。
    Kyw 于 2008-1-17 22:17:24 回复
    是的,SE会根据出现的词语来判断文章的内容。
  • 2008-1-17 22:17:24 回复该留言
  • quote 10.KevinGuy
  • google的确很复杂
    1) 我的网站开始1个月,google收录了不少。
    2) 然后我大规模改变,改了title等较多内容,总的页面也减少。 然后google等待有几天之后才过反映过来,只收录首页。 说明,google存在一个先下载,然后在索引的过程。
    3) 查询,发现被google收录页面持续增多,但是大多数还是原始内容。 google还在处理历史内容。
    4) 最后查询,发现google使用了正确的title,但是仍然错误的内容。 说明google的确title和核心内容是分开处理的。

    这是最近一个月的观察,一个结论,网站如果不是策划好了,功能开发完成了,不要上线,google会迷惑的呢
    Kyw 于 2008-1-19 19:14:50 回复
    放心把,GG对付这样的站很有经验,给点时间就行了。
  • 2008-1-19 19:14:50 回复该留言
  • quote 11.ding555
  • KYW说得太简洁了,呵呵。
    我记得仅仅预处理阶段至少应该有四个步骤:关键词的提取(网页净化与消重);“镜像网页”或“近似镜像网页”的消除;链接分析;网页重要程度的计算。
    Kyw 于 2008-1-19 19:17:05 回复
    你说的没错,只是这篇文章是说如何选择核心内容。你说的是关于排名了。
  • 2008-1-19 19:17:05 回复该留言
  • quote 12.小兵
  • 关键词的提取(网页净化与消重);“镜像网页”或“近似镜像网页”的消除;链接分析;网页重要程度的计算。这几点认同,不过KYW在提到重要方面,说得很详细了,搜索引挚也有意识到最重要的东西,适当的是多一点的东西,结合到链接与相关内容,确定该网页的主题。经过消躁,于是排序就出来了。谢谢KYW。
    Kyw 于 2008-1-19 19:17:44 回复
    谢谢捧场。
  • 2008-1-19 19:17:44 回复该留言
  • quote 13.wangdei
  • 大哥,能不能帮我看看这个NBA中文网 http://www.yaonba.com
    GG收录了大约3000多,但是baidu还没有收录,但是baidu天天来爬首页跟其他页面.我想问问为什么baidu不收录呢?
    Kyw 于 2008-1-24 19:36:02 回复
    等,等着就能收录。这不是废话,是经验。
  • 2008-1-24 19:36:02 回复该留言
  • quote 14.独孤天骄
  • http://www.renjiaoban.com
  • 第二步:去掉有大量链接的部分。经过这步,“相关文章”“推荐文章”等都被去掉了,剩下一些包含文字内容的代码。
    ——这个描述是错误的。按照搜索引擎索引的DocView模型,相关文章和推荐文章都是抓取的。因为他不是噪音内容。另外核心内容,应该是通过投票机制产生的。
    Kyw 于 2008-1-24 19:37:02 回复
    谢谢沟通。我不知道你说的“投票机制”是什么,我找找看。
  • 2008-1-24 19:37:02 回复该留言
  • quote 15.fangnet
  • http://www.beijingso.com
  • 很有道理,观察深入,有个人见解
    现在google越来越复杂,越来越精确了
    SEOer要保持天天学习哦
    Kyw 于 2008-1-24 19:37:18 回复
    不学会心慌。
  • 2008-1-24 19:37:18 回复该留言
  • quote 18.网站被K
  • 我有现两个站,同进被百度K,经过关键词调整,结构局部调整以后一个收录了,一个没有被收录

    一个是:www.gz818.cn 被K后没有收录到一个月后收录了200条,然后一直没动,后来又过了一个半月,我更新了大量信息,一下子从200多涨到15000,重要关键词的排名也全部上涨到百度第一页位置!
    另外一个站:www.puerzg.cn 这个从被K后就一直没收录,想不通,做了大量结构调整,加原创内容,还是没有收录!KYW帮我看看
    Kyw 于 2008-1-26 15:47:56 回复
    放心吧,只要原创内容,会收录的。
  • 2008-1-26 15:47:56 回复该留言
  • quote 19.ryan
  • http://www.zz91.com
  • 同目录下的页面,是不是除了正文内容外,其它部分最好一样?

    我原先的理解是,各个雷同页面之间要尽量区分开来,这样能更好地避免相似页面的问题.所以我在类似的这个页面中http://www.zz91.com/cn/trade25555.html,通过标签机制将相关性强的内容放在侧边栏和底部,认为这样在避免相似页面的同时,还能增加一点页面的相关性和关键字密度.那这样在各个页面之间区别开的话,会不会影响到搜索引擎对核心内容的判断?

    请KYW帮帮看看,谢谢~

    Kyw 于 2008-1-29 9:56:33 回复
    同目录下的页面,是不是除了正文内容外,其它部分最好与正文内容的相关度越高越好。

    你给出的页面,我感觉关键词应该是“铜产品定价”,但整个页面只出现2次“铜产品”。
  • 2008-1-29 9:56:33 回复该留言
  • quote 20.seodig
  • http://www.seodig.com.cn
  • 蜘蛛采集内容后,肯定会有一个对html节点分析的过程。取得核心内容和html节点有一定的关系,一个页面不同的关键词会抓取到相符合内容的节点内容,并记录。下次针对某关键词会重点分析上一次记录的节点内容。
    Kyw 于 2008-1-31 15:47:39 回复
    是的,这已经是很详细的算法过程了。
  • 2008-1-31 15:47:39 回复该留言
  • quote 21.coldstar
  • http://www.cncms.com.cn
  • 在很多门户站点中,都将CSS内容直接写到了页面中,而不是传统的写入一个CSS文件调用,不知有何用意,和SEO有关否?
    Kyw 于 2008-3-4 10:39:30 回复
    和SEO关系很小,CSS写页面里,纯粹是为了方便。
    耿小平 于 2008-9-2 20:40:05 回复
    这样服务器会比较快。
  • 2008-3-4 10:39:30 回复该留言
  • quote 23.hat586
  • 帮助搜索引擎更高效的理解网站及页面的内容=SEO
    理解很特别,也很正确!
    Kyw 于 2008-4-7 20:09:30 回复
    是我的感悟。
  • 2008-4-7 15:19:30 回复该留言
  • quote 24.强
  • http://nothing.com
  • 我现在在开发一个垂直搜索引擎,现在弄到docView模型那一块,我不知道怎样才可以判断到哪些内容才是重要,可以当作正文保存。
    李晓明 写了一本搜索引擎的书,我下在了PDF来看,里面也有讲到DOCView模型,但是就是讲得比较模糊,想跟您联系联系一下,可以吗?
  • 2008-4-25 15:40:24 回复该留言

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

©2007-2011 上海SEO|搜索引擎优化实验室 版权所有  沪ICP备07005018号

Powered By Z-Blog