大数据分析系统架构(大数据系统架构)
大数据分析系统架构(大数据系统架构)、本站经过数据分析整理出大数据分析系统架构(大数据系统架构)相关信息,仅供参考!
编辑导语随着通信技术的发展,网民规模呈现井喷式增长。在此背景下,发掘大数据管理的价值,实现更好的用户体验和服务,成为当前的研究热点之一。本文详细分析了大数据开发与管理的架构,希望对你有所启发。
1.为什么要开发和管理大数据?随着通信技术的蓬勃发展,互联网、终端数字设备和传感器越来越普及,从而呈现出用户数量的稳步增长和数据量的井喷式增长。《2021年中国互联网统计发展报告》显示,我国网民规模已达10.11亿,数字化应用日益丰富,涉及生活服务、娱乐内容、医疗教育等多个领域。预计2025年全球每天产生的数据量将达到491EB。
在此背景下,管理大数据,挖掘其价值,为用户提供更好的体验和服务,成为研究热点之一。
用户线上线下行为产生的数据促进了功能服务的优化,更好的服务反馈给用户,比如
通过收集用户的消费记录,提取特征,计算并推荐与用户偏好匹配度较高的商品。通过分析用户群体的行为特征,可以预测未来的行为发展。这种形式使得“数据”和“服务”相辅相成,形成良性循环,但两者不能直接连接,中间存在各种问题,如
数据来源不同,数据类型众多,数据质量参差不齐,数据可能重复或缺失,不同的服务需要不同的数据。如何提供数据支持,让海量数据以最低的成本消耗存储资源.
要解决这类问题,需要构建大数据开发和管理的“中间服务”——,提供统一的数据采集、处理和管理服务,使数据处于“高质量”、“高效率”、“轻量级”的状态。
二。分几个步骤进行大数据开发和管理。大数据开发管理平台可分为数据采集、集成计算、数据管理、数据安全和数据应用五大模块。
1.数据收集的目的将多源异构数据收集到数据湖中,等待下一步。
做什么
日志数据日志数据可以根据未来的分析需求和留痕需求,采用埋点的方式收集,使用User Track,Aplus收集。JS或者结合相应规格的一些自动埋设工具。其他数据库对于其他数据库的数据,需要根据其他数据库的参数配置采集任务,并配置repository表的参数。意外对于以上两类数据,在采集过程中可能会出现一些需要处理的意外,比如短时间内来自同一个IP的一些高频访问可能是网络攻击,不能视为正常操作来采集日志;在零附近收集日志时可能会出现数据漂移;数据为空(无效值),需要消除。图中列出了一些意外的处理情况。
2.集成计算的目的清理和检查收集的数据。
做什么
模型设计数据模型设计是根据上层应用/分析需求进行的,涉及三维模型维度表(对某事物的描述,如成员数据、商品数据、店铺数据)、事实表(对某业务流程的描述,如商品收款数据、订单数据)、指标数据(基于维度表或事实表中原子指标,结合时间段、限额的派生指标)。模型设计不仅要定义每个表中的字段,还要定义字段规则、更新时间等参数。数据清洗/质量检查根据模型设计中的字段映射关系和字段规则对数据进行清洗,并根据清洗情况出具相应的质量检查报告。任务调度根据计算资源、实时性等因素,合理调度和分配计算任务。
3.数据管理的目的对原始数据、处理后的数据等资源进行分层管理,合理分配存储资源。
做什么
分级管理不同阶段产生的数据需要分开管理,这样每一步留下的痕迹都可以进行处理,用于后续的历史追溯。主要分为五个部分ODS(运营数据存储数据源层)、DWD(数据仓库细节数据细节层)、DWS(数据仓库服务数据服务层)、ADS(应用数据服务应用数据服务)和DIM(维度表层)。存储成本管理由于产生的数据量巨大,需要保留中间处理结果,需要对存储成本进行相应的控制。有四种控制方法数据治理、数据压缩、数据生命周期管理和模型优化。
4.数据应用的目的为外部应用提供处理后的数据。
做什么
支持为需要数据支持的系统和模块提供服务。需要建立各种维度的模型,比如商品、用户、会员等。建立一个完整的描述表;,需要对数据域、业务流程、各种原子指标、衍生指标进行梳理,明确各个指标的口径,选择合适的模型构建方法(例如雪花模型、星型模型)进行关联构建,构建的专题题库(也叫业务块)会向上提供服务。开放接口组织数据资产中的一些字段是接口,它们定义了请求和相应的参数,并将它们开放给数据市场。用户可以根据自己的需求申请订阅。
5.数据安全的目的确保数据的安全性和可追溯性。
做什么
审计隐藏关键操作的数据,收集日志数据进行审计。安全预警构建预警模型,配置关键指标的报警级别和阈值,预警后会通过各种渠道通知相关人员。数据脱敏当涉及到安全数据或一些商业敏感数据时,需要通过脱敏规则对一些敏感信息进行转换,实现隐私保护。水印用可见/不可见水印对图像、视频等文档进行加密,根据业务需求进行签名,明确权责。本文由@丸子不喜欢丸子原创发布。每个人都是产品经理。未经许可,禁止复制。
来自Unsplash的图像,基于CC0协议。
更多关于大数据分析系统架构(大数据系统架构)的请关注本站。