主页 > 网赚优化 > 浅谈互联网页面价值(3)

浅谈互联网页面价值(3)

同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名/稳定性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。

综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。

3. 质量

页面的质量是它对需求的满足程度的一种体现。判断页面质量的高低,应该是从最基础的需求依次递进的。

首先,不能是死链、网站要有一定的稳定性、访问速度要令人满意。

其次,主体内容是否完整、版式和字体是否易读、各类广告会不会太多。

最后,信息是否丰富、延伸出的次级需求是否满足。

典型的低质量页面存在以下一些特征:

主需求无效/未满足(过期分类广告/软件下载页面,下载链接无效等)

死链

虚假信息/诈骗等

空页面

站点不稳定

影响主需求的权限问题(下载/浏览需要注册会员/积分等)

信息不完整(转载不全等)

浏览体验差(广告/字体/页面布局等)

典型的高质量页面存在以下一些特征:

访问速度快(页面加载快/资源下载速度快)

页面整洁干净,主体内容在显著位置。

页面信息完整。

页面元素丰富(文字、图片、评论、相关推荐等)

4. 时效性

“时效性”是页面价值的一个属性,它一般体现在两个方面:一是页面所描述的事物本身有着较强的公众话题性,容易被传播。这其实是受众的一个体现。二是页面所描述的事物仅在第一时间有较高热度,随着时间推移热度显著下降。这是一种“新闻”性。对于具有上述两种属性的页面,如果搜索引擎spider发现页面的时间正处于该事物的“爆发期”或“爆发期”之前,我们认为该页面具有时效性。

需要说明的是,搜索引擎的广义“时效性”是指对所有有价值新资源的及时收录提供检索,而所有的有价值新资源中,有一大部分其收录速度的提升对用户的搜索体验改善意义是不大的,比如介绍如何瘦身的知识性文章,张三的日记。页面价值中的“时效性”指得是一种突发时效性,也就是所有有价值页面中最需要及时收录的那些。对页面时效性的判断是为了指导我们将搜索引擎有限的资源投入到最关键的地方,产生最好的性价比。

判断页面的时效性价值,主要通过下面一些途径:

页面本身受众是否有短时间的突增,比如超链爆发。贾君鹏的帖子就是一个典型的例子。

描述相同事物的互联网页面是否有段时间的突增。贾君鹏事件短时间内爆发出大量相关讨论、报道,和这一事件相关的所有内容都具有了时效性属性。

根据一个集合内的页面是否具有上述两种特征,推测该集合的时效性价值。比如魔兽世界吧经常爆出一些热门帖子,公众话题,我们推测出自魔兽世界吧的帖子其时效性“潜在价值”比较高。

四、 页面价值的研究重点

前文已经介绍了页面价值的含义,研究的意义与价值判断的方法。最后我们再看一下,从技术角度上,这一方向的研究中的重点方向。对页面价值的研究工作主要致力于三方面:

对页面价值体系的认识。我们目前对页面价值的认识是来源于前文所述的四个维度,这个认识是否全面,对于不断变化的互联网环境与用户需求,这些维度应该如何扩展与变化才能更好的服务于整体的搜索体验提升,是一个很重要问题。

对于反映页面价值的页面特征提取。巧妇难为无米之炊,挖掘更多的页面特征,更准确合理的特征提取是页面价值判定准确率提升的基础。

对各种页面特征的组合策略(机器学习)。针对不用的应用方向,需要利用相应的特征通过合理且高效的策略拟合出页面价值的最终评价结果。

说点什么吧
  • 全部评论(0
    还没有评论,快来抢沙发吧!