浅谈网页更新预测算法研究现状

时间:2013-07-02来源:易品网点击: 次

论文摘要：互联网的一个重要性质是网络中的网页信息随时发生着更新。在Web信息迅速增长的今天，网页更新的预测和确定成为了一个备受关注的课题。介绍了作为网页更新预测模型的泊松模型，并根据该模型的各种缺陷分析对网页更新预测算法的现状进行了阐述，同时对未来的研究方向进行了展望。

关键词：Poisson过程；网页更新预测算法；增量采集
　　中图分类号：TP301.6文献标识码：A文章编号：16727800（2013）004005703

0引言
　　据中国互联网络信息中心（CNNIC）统计，中国网页规模呈现翻番增长，截至2010年，中国的网页规模为600亿，年增长率为78.6%。这使得Web这个庞大的信息仓库在提供信息的同时，也会出现一小部分有用的信息将被大量无用信息掩盖的现象。搜索引擎的出现正是为了解决这一困境，帮助人们从海量的数据中找到大家需要的数据，准确、快捷地查找所需信息是搜索引擎的目标。信息资源的规模大、寿命较短、传播范围及来源广泛，且增长速度快，形式多样，给搜索引擎的发展带来了挑战。快速准确地进行网页信息采集成为了一个热门的研究话题，而为了用最小的代价获得更新的网页，预测技术必不可少。

1网页采集技术概述
　　网页的采集方式有集中和增量两种。其中，集中采集的工作方式是依次对所有的网页进行完全采集，这样的采集方式实现非常方便，获取到的数据全面，但是由于其采集是在一个工作周期内进行，因而信息的滞后性非常明显。增量采集的优点主要有以下几个方面：①采集的效率高；②信息全面。建立在预测的基础上，采集周期灵活多变，变化了的网页能够在极短的时间内获得更新。不过，这种方式具有算法复杂和实现难度大的特点。因而倍受国内外学者的广泛关注。

2网页更新预测模型

3网页更新预测现状
　　3.1泊松模型缺陷和改进
　　3.1.1必须获得完整变化轨迹
　　有学者以获得完整的网页变化轨迹（即网页所有更新变化均被统计的情况）为假设前提来估计网页更新频率，然而这一前提在现实的网络环境中由于受到时间和资源的限制而很难实现。文献针对这个问题提出了一种基于部分网页变化轨迹改进的估计方法（称作CGM估计），该方法针对网页是否规律变化分别使用-log[JB（（]X[TX-]+0.5[]n+0.5[JB））]和极大似然估计值估算网页更新频率，并介绍如何根据LASTDATEOFCHANGE来评估λ。实验证明，相比于文献中的方法，文献中的方法在准确性和稳定性上均有提高。其中83%的网页能够获得更接近真实值的频率变化估计值。
　　3.1.2变化频率仅计算一次
　　针对文献方法中网页的变化频率一经确定将不再重复计算，无法适应多变的网络环境的问题，刘凡等设计并实现了一个Web页面跟踪系统，使用一种基于启发式的方法对网页重复访问频率进行动态更新，利用HTML解析器和差异分析算法计算网页的更新度，系统在运行过程中根据发起检测的总数和检测的命中次数，调整网页的重新访问频率，一定程度上减小了使用固定频率重新访问网页带来的误差。其页面更新检测的工作原理如图1所示。
　　图1页面更新检测的工作原理
　　文献提出了一种基于内容和网页隶属关系的分析方法，从权威的网站和公众关注的热点这两个角度出发，在一定程度上解决了主题流行程度与网页变化的关系。其中内容分析是通过分析用户的查询日志来进行：如果一个网页的内容中包含有近期被大多数用户使用的查询词语，那么即认为这个网页是比较重要的；如果这些查询词语是出现在标题、锚文本等明显的地方，则具有较高的相关性，这种网页将获得较高的采集频度。相关性的计算公式为：
　　相关性（U＼-i）=[JB（{]∑[DD（X]j=1[DD）]＼[权值（tag＼-j）×tag＼-j上热点查询词数目＼][JB）}]×主页面权值（U＼-i）
　　3.2网页更新策略
　　复杂多变的网络环境，采用固定的更新策略将会造成估算上的误差，浪费搜索时间以及网络资源，针对该种情况，文献提出CMIU（CrawlingMethodofIncrementUpdating）方法。CMIU方法的主要思路是：通过对页面内每个链接进行数据拟合，从而计算出该页面下每一次的更新时间。假设网页的更新为正态分布，那么，根据时间可以计算出每个网页在每个时刻发生更新的概率，超过阈值的网页静态页面按照HTTP提供的消息头文件有一个预取动作，可以获得协议消息里的时间戳信息，并通过这个信息决定该网页是否需要进行更新，如果不需要，则丢弃，否则放入更新队列中。动态页面则不需要任何检测直接送入更新等待队列。然后系统将会对更新队列中的每一个链接，替换数据库中原有的相关信息。
　　从搜索引擎整体性能的角度出发，蔡欣宝等在文献中参考对不同更新策略的比较结果，通过对有效页面更新频繁度的估计，合理分配采集资源下载有更新的网页，从而避免对没有更新网页的频繁采集。并对部分更新速度过快的网页，并不一味地增大重新访问频率，而是将资源用于重新访问普通网页，提高搜索引擎网页库整体的新鲜度。
　　3.3系统及实现
　　Univ.ChileCrawler是一个由智利大学开发研制的增量式搜索引擎，它的调度过程是通过计算索引的时新性来完成，通过综合考虑网页内容与搜索引擎用户常用查询词的相似度计算结果作为网页的价值，搜索引擎在进行网页更新时，优先收集网页库中价值较高的网页。基于泊松过程的预测方法需要搜集网页长时间的变化轨迹才能准确地给出模型参数的估计，进而得到准确的更新预测。为了减少对各种资源的消耗和占用，文献在采样和分类的基础上，使用PageRank、HITS等指标计算网页的价值和变化量，优先更新价值高的网页，使高质量的网页具有更高的时新性。
　　北京大学开发了天网增量搜集系统，该系统使用文献的方法计算网页的更新频率，通过引入堆栈距离模型，在针对Web网页的变化特性和具体实验方法对其修正之后，验证了网页具有时间局部性规律，即大部分网页的变化间隔极短，通过这个规律，该系统在短时期内直接搜集变化了的网页。

4结语
　　海量网络信息为我们的工作和生活提供了宝贵的信息资源，搜索引擎也已成为信息获取的主要方式。Internet的飞速发展和网络信息的大爆炸促使我们必须采用增量的搜索引擎采集方式。本文主要就网页更新预测算法的发展现状进行了讨论。通过对各种网页更新预测算法的优缺点进行分析可知，单纯依靠单一模型，使用固定更新间隔已难以满足当今搜索引擎低成本高效率的要求。而如今Web网页的变化纷繁复杂，同时又给网页更新预测算法提出了更高的要求，因此还需要进步加强对更新预测算法的研究工作。

参考文献：
　　[1]中国互联网络信息中心（CNNIC）.第27次中国互联网络发展状况统计报告[R].2011.
　　[2]CASTILLOC，BAEZAYATESR.AnewmodelforWebcrawling[C].Proc.ofthe11thWorldWideWebConf，2002.
　　[3]徐文杰，陈庆奎.增量更新并行Web爬虫系统[J].发表于计算机应用，2009（4）.