互联网上随时都有新呈现的页面,随时都有网站在更新,随时都有页面在更新,所以搜查引擎展示的结果力求时效性,也就是数据库内的数据要时刻坚持更新,蜘蛛要尽可能的时刻重复抓取,尽可能保障互联网网页与数据库存储的一致性。前面在《搜查引擎蜘蛛3个考察标准》中也说过,假如某个网页已被删除或者内容做出重大变动,而搜查引擎没能及时更新,仍然按其旧有内容排序,那会重大影响用户闭会。
所以,对己经抓取过的网页,蜘蛛还是必须尽快坚持其内容更新,这就请求搜查引擎蜘蛛在有限的前提下快的更新已抓取来的信息,因此搜查引擎都会相应的网页更新策略,水平的去利用蜘蛛,尽可能保障搜查结果的时效性。这些更新策略中就包含了历史参考策略跟用户闭会策略,这是咱们要谈的。
历史参考策略:历史参考策略是一个十分直观的更新策略,顾名思义,它就是参考你的网站历史。参考什么历史呢网站更新情况的历史。有这么一个假设:从前频繁更新的网页,那么将来也会频繁更新。这样的网站就须要经常地过来。
当然这种方法也没那么简单轻率,同样须要建模,依据每个网页从前的变动情况,来判断它更新的频率。对频率高的就须要经常抓取更新,而没怎么更新的,大可之后再去,免得扑个空。同时利用这种方法,搜查引擎也会料想网站何时会再次更新,以便水平晋升蜘蛛工作才干。这也是为什么咱们经常会说网站须要经常地更新,而且是有法则的更新,因为这样蜘蛛同样会更准时有效的来更新你的网页,形成互助。
用户闭会策略:用户闭会策略算是一个比较霸道的更新策略,也可能说在依据网站的历史,只不过用的是排名历史。用户在查问的时候,面对大量的搜查结果不可能逐个查看,往往查看前3页就不错了。用户闭会策略就是利用用户闭会的这个特点来的。
所以用户闭会更新策略是以用户搜查闭会为中心,这样即便数据库里的网页内容是过期的,然而假如不影响用户搜查闭会,那么晚些更新这些过期网页也未尝不可。也就是说排名靠后的网页浏览的用户较少,在有限的前提下优先更新排名靠前的网站,因为目前而言,这些网页的价值更大,须要更多。
很明显,用户闭会更新策略取决于这个网贝的内容变更是否能带来用户搜查品质的变更,在搜查结果影响的,就须要优先更新,影响越大的网页,则应当越快更新。在更新进程中会再次评判每次更新内容对搜查品质的影响,后果的会再次优化这个更新策略。
写在后
可能看到不管是依据网页的历史更新频率还是依据用户的搜查闭会,蜘蛛都是想保障在去网站的进程中有内容可抓,有高品质内容可抓,不挥霍一次抓取行动,保障的抓取更新。所以平常须要有法则的更新有价值的内容,不要看到某些大型网站长期没更新,搜查结果的更新还是那么快,别人有用户闭会做更新保障,而且远不止用户闭会策略这一个偏向他们的策略,对有权威、有信用度、有须要、有价值的网站,搜查引擎是始终都有优先策略的,在搜查技巧还没完全可能笼罩全网时,不得不得不说,这确实是不错的政策。
当然,这2个策略只是所有网页更新策略的一局部,只管不是那么,但在前提限度的时候,也是不是办法中的办法。而且大多时候,很多更新策略不是独破运行了,都是同时进行,彼此帮助,保障蜘蛛在抓取量大的同时,能抓得更快更好。