课程咨询 :15874024893
qq:2416540879

长沙网络营销培训 > 达内新闻 > 网页特征的抽取和加权
  • 网页特征的抽取和加权

    发布:长沙网络营销培训      来源:达内新闻      时间:2016-08-18

  • 网页特征的抽取和加权

    网页特征的抽取是网页自动归类和自动聚类的前提。

    网页特征的抽取可以从以下几个方面提高网页自动分类系统的性能。

    首先是分类速度,通过网页特征的选择,可以大大减少特征集合中的特征数,从而提高网页自动归类系统的运行速度,使之能够满足现实需求。

    二是通过适当的特征选择,不但不会降低系统的准确性,反而会使系统的精度提高。

    这一点己经为实验所证明。为了使计算机能够更有效地处理网页特征,必须对网页特征进行特征加权,将网页特征表示成计算机能够处理的数学向量。网页数据是一种半结构化的数据,要比文本复杂的多。

    在网页表示中,对任一特征而言,有两个影响它权值的因素。一是该词的词频,另一个是该词在网页中出现的位置,在网页中不同位置出现的语词的价值是不同的。

    网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HMTL标记等12个标引源的主题表达能力的先后顺序。得出的结论是首段>文章标题H>TML标记&g t;第一段首句>网页标题>第一段尾句>第二段首句)第二段尾句)尾段>第三段首句>其它>第三段尾句。

    并建议它们的加权值为5:5:5:4:4:4:2:2:2:2:2:2。

    推荐文章

上一篇:SEO需要具备哪些专业技能

下一篇:图片搜索功能的现状及发展趋势

最新开班日期  |  更多

网络营销型网站班

网络营销型网站班

开班日期:10月31日

SEO搜索引擎优化班

SEO搜索引擎优化班

开班日期:10月31日

SEM搜索引擎推广班

SEM搜索引擎推广班

开班日期:10月31日

百度搜索推广综合班

百度搜索推广综合班

开班日期:10月31日

  • 网址:http://cs.so.tedu.cn      地址:长沙市芙蓉中路一段479号建鸿达现代城27楼
  • 课程培训电话:15874024893
    qq:2416540879    全国服务监督电话:400-827-0010
  • 服务邮箱 ts@tedu.cn
  • 2001-2016 达内国际公司(TARENA INTERNATIONAL,INC.) 版权所有 京ICP证08000853号-56