长沙网络营销培训中心
达内长沙芙蓉路中心

18487146383

热门课程

网页特征的抽取和加权

  • 时间:2016-08-18
  • 发布:长沙网络营销培训
  • 来源:达内新闻

网页特征的抽取和加权

网页特征的抽取是网页自动归类和自动聚类的前提。

网页特征的抽取可以从以下几个方面提高网页自动分类系统的性能。

首先是分类速度,通过网页特征的选择,可以大大减少特征集合中的特征数,从而提高网页自动归类系统的运行速度,使之能够满足现实需求。

二是通过适当的特征选择,不但不会降低系统的准确性,反而会使系统的精度提高。

这一点己经为实验所证明。为了使计算机能够更有效地处理网页特征,必须对网页特征进行特征加权,将网页特征表示成计算机能够处理的数学向量。网页数据是一种半结构化的数据,要比文本复杂的多。

在网页表示中,对任一特征而言,有两个影响它权值的因素。一是该词的词频,另一个是该词在网页中出现的位置,在网页中不同位置出现的语词的价值是不同的。

网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HMTL标记等12个标引源的主题表达能力的先后顺序。得出的结论是首段>文章标题H>TML标记>第一段首句>网页标题>第一段尾句>第二段首句)第二段尾句)尾段>第三段首句>其它>第三段尾句。

并建议它们的加权值为5:5:5:4:4:4:2:2:2:2:2:2。

上一篇:SEO需要具备哪些专业技能
下一篇:图片搜索功能的现状及发展趋势

网络营销讲解思路决定出路

开展企业网络营销,运用哪些手段比较好?

一个企业不是死于市场,而是死于无知---网络营销课程

请你吃鱼,远远不如教你怎么钓鱼!

选择城市和中心
贵州省

广西省

海南省