0°

数据采集的几类方法及基本概念

1.数据采集层

客户端日志采集方案:Web日志采集技术方案和APP端日志采集技术方案。在采集技术基础之上,不同的业务场景会有与之相适应的埋点规范,来满足通用的浏览、点击、特殊交互、APP事件、H5 APP里的H5 Native日志数据打通等多种业务场景。高性能的数据传输:既包括数据库的增量数据传输,也包括日志数据的传输;既支持实时流式计算,也支持各种时间窗口的批量计算。同步中心:同步工具DataX,直连异构数据库(备库)来抽取各种时间窗口(每天、每小时)的数据。

2.数据计算层

为了发挥出大数据的价值并最终赋能于商业和创造商业价值,必须对海量数据进行整合和计算,并从中洞察商业规律、挖掘出潜在信息。为此,从采集系统中收集到的大量原始数据,将进入数据计算层中被进一步整合与计算。这就需要一套数据存储及计算平台、数据整合及管理体系。

数据计算层:数据存储及计算云平台(离线计算平台MaxCompute和实时计算StreamCompute);数据整合及管理体系(被称之为“OneData”)。MaxCompute离线大数据平台提供强大的存储和计算引擎;StreamCompute实时计算平台能够较好地支持流式处理需求。

在OneData体系下,构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥大数据海量、多样性方面的独特优势。借助这一统一化数据整合及管理的方法体系,构建了数据公共层,并可以帮助相似的大数据项目快速落地实现。

从数据计算频率的角度,数据仓库分为离线数据仓库和实时数据仓库。离线数据仓库主要是指传统的数据仓库概念,数据计算频率主要以天(包含小时、周和月)为单位 ;比如通常在任务调度平台,每天凌晨处理上一天的数据。但是随着业务的发展特别是交易过程的缩短,用户对数据产出的实时性要求逐渐提高,逐渐有了实时数据仓库的应用需求和场景(比如双十一大屏)。

数据仓库的数据加工链路遵循业界分层理念,包括操作数据层(Operational Data Store, ODS、明细数据层(Data Warehouse Detail , DWD)、汇总数据层(Data Warehouse Summary, DWS )和应用数据层(Application Data Store, ADS)。通过数据仓库不同层次之间的加工过程实现从【数据资产】向【信息资产】的转化,并且对整个过程进行【有效的】【元数据管理】及【数据质量处理】。

元数据模型整合及应用:

数据源元数据、数据仓库元数据、数据链路元数据、工具类元数据、数据质量类元数据等。

元数据应用主要面向数据发现、数据管理等,如用于存储、计算和成本管理等。

3.数据服务层

数据服务层,通过接口服务化方式对外提供数据服务,以保证更好的性能和用户体验。针对不同的需求和数据应用场景,数据服务层的数据源架构在多种数据库之上,如MySQL、HBase等【RDS、表格存储( TableStore )】。

数据服务可以使应用对底层数据存储透明,将海量数据方便高效地开放给集团内部各应用使用。现在,数据服务每天拥有几十亿的数据调用量,如何在性能、稳定性、扩展性等方面更好地服务于用户:如何满足应用各种复杂的数据服务需求:如何保证“双 11 ”媒体大屏数据服务接口的高可用……随着业务的发展,需求越来越复杂,因此数据服务也在不断地进化。

数据服务层对外提供数据服务主要是通过统一的数据服务平台(方便阅读,简称为“OneService ”)。One Service 以数据仓库整合计算好的数据作为数据源,对外通过接口的方式提供数据服务,主要提供简单数据查询服务、复杂数据查询服务(承接集团用户识别、用户画像等复杂数据查询服务)和实时数据推送服务等特色数据服务。

4. 数据应用层

数据已经准备好,需要通过合适的应用提供给用户,让数据最大化地发挥价值。数据应用表现在各个方面,如搜索、推荐、广告、金融、信用、保险、文娱、物流等。商家 ,集团内部的搜索、推荐、广告、金融等平台 ,集团内部的运营和管理人员等,都是数据应用方;ISV研究机构和社会组织等也可以利用开放的数据能力和技术。

两类:对内数据平台和服务于商家的对外数据产品,还有其他数据应用。对内数据平台产品主要有实时数据监控、自助式的数据网站或产品构建的数据小站、宏观决策分析支撑平台、对象分析工具、行业数据分析门户、流量分析平台等。

通过这个例子,我们看到通过httpclient获取数据,通过字符串操作扣取标题内容,然后通过system.out输出内容。大家是不是感觉做 一个爬虫也还是蛮简单呢。这是一个基本的入门例子,我们再详细介绍怎么一步一步构建一个分布式的适用于海量数据采集的爬虫框架。

整个框架应该包含以下部分,资源管理、反监控管理、抓取管理、监控管理。通过这个例子,我们看到通过httpclient获取数据,通过字符串操作扣取标题内容,然后通过system.out输出内容。大家是不是感觉做 一个爬虫也还是蛮简单呢。这是一个基本的入门例子,我们再详细介绍怎么一步一步构建一个分布式的适用于海量数据采集的爬虫框架。

整个框架应该包含以下部分,资源管理、反监控管理、抓取管理、监控管理。

我们相信,数据作为新能源,为产业注人的变革是显而易见的。我们对数据新能源的探索也不仅仅停留在狭义的技术、服务和应用上。我们正在挖掘大数据更深层次的价值,为社会经济和民生基础建设等提供创新方法。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论