搜索引擎大数据采集方法

  

  

下面一米软件来给大家分享一下搜索引擎大数据采集方法:


搜索引擎大数据采集方法


数据爬取流程


数据抓取


爬虫不同于人类用户,他们“看到”的网页信息为页面代码(保护html、css、js等),但是这些信息中真正有价值的可能只有文章的标题、作者、发布时间等内容,所以爬虫往往会在页面抓取和下载之后,将页面中有价值的信息初步提取和解析出来,再转发给后续的信息解析和存储等服务。


常见的数据预处理可能会包含:


url/页面信息分析,用以确定该url/页面是否有抓取价值


页面信息下载,将页面里的数据下载下来进行分析



目标内容提取,从整个页面的标签组里把目标内容解析出来,构建成结构化的数据传给下游系统。


页面信息上报,用来记录自己的运行记录,方便后续的工作控制、页面去重等需要


数据清洗和解析


后端服务收到爬虫抓取的结构化数据之后,会进行数据的一步清洗和解析,主要包含数据的转码、解码,不合理信息剔除、有效信息提取、内容分析打标签等。


数据存储


结构化数据在经过了解析之后,会通过相关服务转发给不同的存储系统进行保存,保存的信息主要包含数据源、url、标题正文、发布时间、多媒体地址、标签等内容。


同时,为了保证数据存取的效率,也会针对数据的时间、种类等属性进行规划,最后存入不同的存储集群和解决方案。


数据索引


在数据存储时,为了能对数据进行快速的搜索,系统会尝试对数据进行索引。索引中与数据抓取关系较大的主要是对数据/信息去重的部分,主要体现为对原地址、页面内容等的编码,以及对资源metadata的建模。

  
相关资讯