课程咨询 :15874024893
qq:2416540879

长沙网络营销培训 > 达内新闻 > 搜索引擎的信息清洗抽取流程
  • 搜索引擎的信息清洗抽取流程

    发布:长沙网络营销培训      来源:达内新闻      时间:2016-08-18

  • 根据搜索引擎文本相似度算法,需要从网页中提取出相关特征信息。从网页HTML代码中提取指定的特征信息,一般先要清洗掉网页HTML编码中的无用信息或噪声数据,然后再从清洗好数据中提取出想要的信息。根据文本相似度算法 ,我们需要从网页中提取标题,网页中定义的关键字、描述性文本、粗体字,网页正文,网页中的链接、图片等供排序分析使用。

    信息清洗抽取流程描述如下:

    (1)线程采集程序首先获取当前任务(URL)的网页编码。

    (2)启动清洗器,并初始化。

    (3)清洗掉网页编码中的样式编码和注解编码。

    (4)清洗掉网页编号中的JAVASCRIPT代码,并同时根据JS编码信息识别当前网页是否存在视频。如果存在视频,则进行保存。

    (5)将网页代码分成head和body两部分。

    (6)从head部分中,获取到网页的标题、摘要描述信息、网页关键字。

    (7)从body部分的编码中获取到这个网页的子链接与外链接、粗体字、网页正文、图片、未知的站点、邮箱地址、音乐、文档等信息。

    (8)将提取后的信息进行压缩转换成易于存储的格式并进行存储。

    (9)清洗结束。

    推荐文章

上一篇:网站URL优化策略

下一篇:搜索引擎蜘蛛爬取搜集基本方式

最新开班日期  |  更多

网络营销型网站班

网络营销型网站班

开班日期:10月31日

SEO搜索引擎优化班

SEO搜索引擎优化班

开班日期:10月31日

SEM搜索引擎推广班

SEM搜索引擎推广班

开班日期:10月31日

百度搜索推广综合班

百度搜索推广综合班

开班日期:10月31日

  • 网址:http://cs.so.tedu.cn      地址:长沙市芙蓉中路一段479号建鸿达现代城27楼
  • 课程培训电话:15874024893
    qq:2416540879    全国服务监督电话:400-827-0010
  • 服务邮箱 ts@tedu.cn
  • 2001-2016 达内国际公司(TARENA INTERNATIONAL,INC.) 版权所有 京ICP证08000853号-56