搜索引擎蜘蛛工作原理搜索引擎蜘蛛是通过链接地址来寻找网页的。网站优化搜索引擎蜘蛛名称随搜索引擎的不同而不同。那它的原理是由一个起始链接开始抓取网页内容,同时也采集网页上的链接,并将这些链接作为它下一步抓取的链接地址,如此循环,直到达到某个停止条件后才会停止。停止条件的设定通常是以时间或是数量为依据,可以通过链接的层数来限制网络蜘蛛的爬取。同时页面信息的重要性为客观因素决定了蜘蛛对该网站页面的检索。站长工具中的搜索引擎蜘蛛模拟器其实它就是这个原理。基于这蜘蛛工作原理,站长都会不自然的增加页面关键词出现次数,虽然对密度产生量的变化,但对蜘蛛而言并没达到一定的变化。这在搜索引擎优化过程中应该要避免的。影响因素由国外37名优秀的SEO界高手共同参与,以投票形式评论影响Google排名的重要因素,此次评选非常有价值,尽管没有将200多个Google排名因素全部列出,但Google排名算法中90%-95%的重要成分已经包含在其中了。正面因素排名 得分 分类 详细说明1 关键词(1)关键词在网站TITLE上的使用(2)关键词在网页内容上的应用(3) 页面内容和关键词的相关性(语义分析)(4) 关键词在H1标签中的使用(5) 关键词在网站域名中的使用(6) 关键词在页面URL中的使用(7) 关键词在H2、H3等Headline标签中的使用(8) 图片的关键词优化(9) 关键词在Meta Description中的使用(10) 关键词在Meta Keywords中的使用2 外部链接(1)外部链接的锚文字(2) 外部链接页面本身的链接流行度(3) 外部链接页面的主题性(4) 外部链接页面在相关主题的网站社区中的链接流行度(5) 链接的年龄(6) 链接的周围文字(7) 同域名下外部链接页面的链接流行度(8) 外部链接的创建和更新时间(9)外部链接网站域名的特殊性(10) 外部链接网站的PR值3 网站品质(1) 网站的外部链接流行度、广泛度(2) 域名年龄(从被搜索引擎索引开始计算)(3) 网站的外部链接页面内容与关键词的相关性(4)网站在主题相关的网站群中的链接流行度(5) 网站新外部链接产生的速率(6) 网站收录数量(7) 用户查询的关键词与网站主题的相关性(防止Google bombing)(8) 用户行为(9) Google的人工授予权重(10) 域名的特殊性(.edu .gov等)(11) 新页面产生的速率(12) 用户搜索网站的次数(13) 网站是否通过Google Webmaster Central的认证4 页面质量(1)网站内部链接结构(2) 导出链接的质量和相关性(3) 页面的年龄(4) 页面内容的质量(5) 网站的结构层次(6) URL中“/”符号的出现次数(7) 拼写和语法的正确性(8) HTML代码是否通过W3C认证5 权重标签 strongheading标签在页面内容中的使用6 nofllow标签nofollow标签在页面链接及meta中的使用。7 针对百度的SEO优化负面因素排名 得分 详细说明1、服务器经常无法响应;2 、与Google已经收录的内容高度重复;3 、链向低质量或垃圾站点;4 、网站大量页面存在重复的META标签;5 、过分堆砌关键词;6 、参与链接工厂或大量出售链接;7 、服务器响应时间非常慢;8 、网页主要META更改频率过高;9 、非常低的流量,用户行为反映差;10、SEO优化中关键词布局技巧把页分成小组H1(由主要关键词组成) 在每页唯一使用的一个H1标签H2(相似的分题重复主要关键词短语)段落H2(另外的一个次要主题用一些相似或重叠的变种关键词))段落H2(有时一些分标题没有关键词,但是大多数也做成H2的标题)段落STRONG标签用于站长们文章内容的关键词突出显示通常副标题将会把重心集中在一个些较长的关键词短语,特别要超过主标题,但是也将会包含一些与主标题相同的词组。另外描写的副标题也要改进站长们的网站的浏览效率和可用性。建议每页使用一个H1标签,用其他的字组文本辅助关键词构成那标题标签中的信息。关键词的提取大部分的网站以HTML格式存在,对于索引来说,只需要处理文本信息。因此需要把网页中内容提取出来,再过滤一些脚本如JS等以广告形式存在的内容,同时记录文本的版面格式信息,网页处理主要包括4个方面:关键词的提取,重复,转载的消除,链接分析,和网页重要度计算,关键词是怎么提取的,由于HTML 网页来源多样性,内容比较随意,新人SEO且不讲究规范,工整,包含了许多无关的信息,中文网页用到了词典和切词软件,不应该在文本中出等词,称为停用词,有效词语要保证在200左右。与关键词有关的页面排名因素1.标题标签中第一个字或者词使用关键词2.域名中含有关键词3.H 1标签使用了关键词4.页面上导出内部链接锚文字中使用了关键词5.页面上导出外部链接锚文字中使用了关键词6.页面前50-100个可见文字中使用了关键词7.子域名中包含关键词8.目录名中还有关键词9.其他正文标题(H2、H3)中使用了关键词常见术语链接场(Link Farm)在 SEO 术语中,链接场是指一个充满链接的页面,这些链接其实没有实际作用,它们只作为链接存在,而没有任何实际的上下文。那些采用运用黑帽 SEO 方法的人利用链接场,在一个页面中增加大量链接,希望能通过这种方式使 Google 误认为这个页面很有链接的价值。交互链接(Reciprocal Link)也称作双向链接,是对一个网页不光有超文本链接,同时对应有和原始网页的链接。有机列表(Organic Listing)有机列表是 SERP 中的免费列表。有机列表的 SEO 通常涉及改进 Web 站点的实际内容,这往往是在页面或基础架构级别进行的。PageRankPageRank是迷恋Google的人们用来测试其站点在 Google 中的排名的一种度量标准。SEO 和搜索引擎营销(SEM)专家也使用这个术语描述网页在 SERP 中的排名以及 Google 根据排名算法给予站点的分数。无论如何定义,PageRank 都是 SEO 的重要部分。付费列表(Paid Listing)顾名思义,付费列表就是只有在付费后才能列入搜索引擎的服务。根据搜索引擎的不同,付费列表可能意味着:为包含于索引之中、每次点击(PPC)、赞助商链接(Sponsored Link)或者在搜索目标关键词和短语时让站点出 SERP 中的其他方式而付费。永久重定向(Permanent Redirect)也被称为301 重定向,是一条对网站浏览器的指令来显示浏览器被要求显示的不同的URL,当一个网页经历过其URL 的最后一次变化以后时使用。一个永久定向是一种服务器端的重定向,能够被搜索引擎蜘蛛适当地处理。排名(Ranking)排名是页面在目标关键词的SERP中列出的位置。SEO 的目标是提高 Web 页面针对目标关键词的排名。排名算法(Ranking Algorithm)排名算法是搜索引擎用来对其索引中的列表进行评估和排名的规则。排名算法决定哪些结果是与特定查询相关的。搜索引擎营销(Search Engine Marketing,SEM)SEM 这个术语可以与 SEO 互换使用,但 SEM 常常是指通过付费和广告向搜索引擎推销 Web 站点,同时应用 SEO 技术。搜索引擎优化(Search Engine Optimization,SEO)SEO 就是根据对搜索引擎的吸引力和可见性来优化内容,从而使 Web 页面能够被搜索引擎选中。SEO 主要用来提高有机列表的排名。搜索引擎结果页面(Search Engine Results Page,SERP)SERP 是为特定搜索显示的列表或结果。SERP 有时候定义为搜索引擎结果的安排(placement)。根据本系列的目的,我将其称为页面而不是安排。在SEO领域中,在SERP中取得良好的表现就是一切。垃圾技术(Spamming)垃圾技术是一种欺诈性的SEO手段,它尝试欺骗爬行器(Spider),并利用排名算法中的漏洞来影响针对目标关键词的排名。垃圾技术可以表现为多种形式,但是 “垃圾技术” 最简单的定义是 Web 站点用来伪装自己并影响排名的任何技术。关键字隐密字 (Hidden Text With Keyword Stuffing)是另外一欺骗搜索引擎的做法。通常是指设置关键字的颜色和网页背景颜色一样,或通过 CSS Hidden Attribute (隐密特性) 来达到优化效果。这种做法一旦被Google发现,遭遇也会是该站点从Google的数据库中除名。爬行器(Spider)爬行器在 Web 上漫游,寻找要添加进搜索引擎索引中的列表。爬行器有时也称为 Web 爬行榜(Webcrawler)或机器人。针对有机列表优化页面也就是为了吸引爬行器的注意。在SEO中过多使用flash和Ajax技术,会给搜索引擎带来很多麻烦,搜索引擎还不能很好地索引由flash、ajax表现的网页,原因就是搜索引擎只索引页面,而不会索引应用程序。还有即使搜索引擎做到了完全解释Flash文件或者ajax应用程序,并能分析和索引它们的相关内容,也还是没有任何办法使用url导航应用程序,对排名没有一点帮助。搜索引擎的主要目标的是将搜索结果提交给用户,但当处理这些媒体信息时,搜索引擎将无法排列这些信息的顺序。总之,Flash和Ajax将会带来更多有创意的设计,也会带来更难侦测的垃圾网站形式。谷歌索引的Flash,给的建议就是,网站设计者应该仅在需要使用Flash和 Ajax的地方使用它,应该主要还是多使用HTML语言设计网站,而将Flash和Ajax作为辅助技术,为用户提供切实的好处。通常,HTML和 JavaScript的混合也基本可以达到使用这些技术的效果。也就是说,在使用Flash和Ajax时应把它们当成页面上的单元,而不是页面本身。Link Popularity 网站的链接广泛度。在搜索引擎排名中的作用已得到广泛的认同和重视。实际上,即使站长们没有在GOOGLE上提交站长们的站点,但与其它网站作了链接,Google也可能收录站长们的网站。搜索引擎还可能完全依据站长们的链接广泛度决定站长们的网站排名。Internal Links 内部链接:本网站内部网页之间的链接External Links外部链接:本网站外部的链接,一般是指其他网站连到本网站的链接Backward Links或Incoming/Inbound Links反向/导入链接:意义与“外部链接”接近,指其他网站连到本网站的链接Outgoing/Outbound Links导出链接:指从本网站连到其他网站的链接Search Engine Positioning 搜索引擎定位Search Engine Ranking 搜索引擎排名External Files外部文件存储把JavaScript文件和CSS文件分别放在JS和CSS外部文件中。这样做的好处是把重要的页面内容放到页面顶部,同时能缩小文件大小。有利于搜索引擎快速准确地抓取页面重要内容。Keyword Density 关键词密度ROBOTS 搜索机器人Affiliate Marketing 联属网络营销(会员制营销、网站联盟等)联属网络营销 指的是一种网站A为网站B放置广告按钮,然后从为网站B带来的销售额中获得回佣的一种广告系统。某些广告主通过这种方式获得市场信息而不是现金销售。这种方式被营销费用比较紧张的新网站采用得比较普遍。Cost-Per-Click (简称CPC)按点击数付费联属网络营销管理系统记录每个客人在联属会员网站上点击到商家网站的文字的或者图片的链接(或者Email链接)次数,商家(Merchant)按每个点击多少钱的方式支付广告费。Cost-Per-Lead (简称CPL)或Cost-Per-Acquisition (简称CPA)按引导数付费或访问者通过联属会员的链接进入商家网站后,如果填写并提交了某个表单,管理系统就会产生一个对应给这个联属会员的引导(Lead)记录,商家按引导记录数给会员付费。Cost-Per-Sale (简称CPS) 按销售额付费商家只在联属会员的链接介绍的客人在商家网站上产生了实际的购买行为后(大多数是在线支付)才给联属会员付费,一般是设定一个佣金比例(销售额的10%到50%不等)。Pay For Performance (按效果付费)联属营销按效果付费的营销方式无论对于商家还是联属会员都是比较容易接受的。由于网站的自动化流程越来越完善,在线支付系统也越来越成熟,越来越多的联属网络营销系统采用按销售额付费的方法。由于这种方法对商家来说是一种零风险的广告分销方式,商家也愿意设定比较高的佣金比例,这样就使得这种方式的营销系统被越来越多地采用。Open Directory Project (简称ODP) 目录索引Full Text Search Engine 全文搜索引擎Search Index/Directory 目录索引类搜索引擎META Search Engine 元搜索引擎Spider 俗称“蜘蛛”Indexer 检索程序Free For All Links (简称FFA)免费链接列表Stop Words/Filter Words 停用词/过滤词这两者意义一样,都是指一些太常用以至没有任何检索价值的单词,搜索引擎碰到这些词时一般都会过滤掉。因此为节省空间,应尽量避免使用这一类的词,尤其是在对文字数量有严格限制的地方。Spam:搜索引擎垃圾技术的统称Frame Sets 框架结构有些搜索引擎(如FAST)是不支持框架结构的,他们的“蜘蛛”程序无法阅读这样的网页。Image Maps 图象区块当“蜘蛛”程序遇到这种结构时,往往会感到茫然不知所措。因此尽量不要设置Image Map链接。Dynamic Pages 动态网页通过程序和数据库连接制作的网页,任何地址中带“?”号、“&”号(及其他类似符号)的网页都会把“蜘蛛”程序挡在门外。Invisable/hidden text 隐藏文本内容意欲在不影响网站美观的前提下通过包含大量关键词的网页提高关键词相关性得分,从而达到改善搜索引擎排名的目的。Invisable/hidden links 隐藏链接意欲在不影响网站美观的前提下通过在其它页面添加指向目标优化页的隐形链接,通过提升链接得分而改善搜索引擎排名。Misleading Words 误导性关键词在页面中使用与该网页毫不相干的误导性关键词来吸引查询该主题的访问者访问网站。这种做法严重影响了搜索引擎所提供结果的相关性和客观性,为搜索引擎所深恶痛绝。Repeated Words 重复性关键词这种作弊技术也被称为“关键词堆砌欺骗(Keyword Stuffing)”,网站优化它利用搜索引擎对网页正文和标题中出现的关键词的高度关注来对关键词进行不合理的(过度)重复。类似的其它做法还包括在HTML元标识中大量堆砌关键字或使用多个关键字元标识来提高关键词的相关性。这种技术很容易被搜索引擎察觉并受到相应惩罚。Keyword Stuffing 关键词堆砌Cloaked Page 隐形页面对实际访问者或搜索引擎任一方隐藏真实网站内容,以向搜索引擎提供非真实的搜索引擎友好的内容提升排名。Deceptive redirects 欺骗性重定向指把用户访问的第一个页面(着陆页)迅速重定向至一个内容完全不同的页面。Shadow Domain 鬼域这是最常见的欺骗性重定向技术,通过欺骗性重定向使用户访问另外一个网站或页面。Meta Refresh刷新标识Doorway Page 门页也叫“Bridge/Portal/Jump/Entry Page”。是为某些关键字特别制作的页面,专为搜索引擎设计,目的是提高特定关键词在搜索引擎中的排名所设计的富含目标关键词的域名,且重定向至另一域名的真实网站。搜索引擎的Spiders往往忽略对那些自动重定向到其它页的页面的检索。Mirror Sites镜象站点通过复制网站或网页的内容并分配以不同域名和服务器,以此欺骗搜索引擎对同一站点或同一页面进行多次索引。大多数搜索引擎都提供有能够检测镜象站点的适当的过滤系统,一旦发觉镜象站点,则源站点和镜象站点都会被从索引数据库中删除。Link Spamming 作弊链接/恶意链接link farms 链接工厂Bulk Link Exchange Programs大宗链接交换程序Cross Link交叉链接Doorway Domain 门域专为提高特定关键词在搜索引擎中的排名所设计的富含目标关键词的域名,然后重定向至其它域名的主页。由于搜索引擎一般忽略自动重定向至其它页的页面的检索,所以不提倡使用这种技术。
先摸清楚搜索引擎的算法,按照算法来操作,就没错了