cda数据分析试题(CDA数据分析考试大纲pdf)
cda数据分析试题(CDA数据分析考试大纲pdf),本文通过数据整理汇集了cda数据分析试题(CDA数据分析考试大纲pdf)相关信息,下面一起看看。
一.基本概念
1.数据分析和数据挖掘的概念
数据分析是以数据为分析对象,以挖掘数据中有用的信息为主要途径,以解决业务需求为最终目的的一整套分析过程,包括业务理解、数据采集、数据清洗、数据探索、数据可视化、数据建模、模型结果可视化、分析结果的业务应用。
数据挖掘:它是计算机科学的一个跨学科分支。它是利用人工智能、机器学习、统计学和数据库的交叉方法,在相对较大的数据集中发现模式的计算过程。
2.数据分析的八个层次
数据分析的目的:寻找有价值的信息,得出结论,为业务发展提供辅助决策。它描述了“过去发生的事”、“现在正在发生的事”和“将来可能发生的事”。根据分析层次结构的级别,可以分为例行报告、即席查询、多维分析(也称为钻取或OLAP)、报警、统计分析、预测(或时间序列预测)、预测模型和优化。
3.大数据对传统小数据的扩展及其区别和联系。
数据:小数据重采样,大数据重采样。因为传统小数据分析的本质是基于样本推断总体,所以在分析过程中非常注重抽样的科学性。只有抽样科学,推断的结果才有科学意义。虽然大数据不一定是全部,但由于建模方法更倾向于机器学习,采样不再是必要的手段和方法论。
方法:小数据再实证,大数据再优化。传统小数据在方法上更注重实证研究,强调在相关理论的前提下,建立假设,收集数据,建立模型,验证假设。而大数据在方法论上往往更注重自我迭代、自我优化的过程,运算的第一个结果可能与标准答案相差甚远。但是模型的精度是可以通过不断的用正确答案校准来不断提高的(损失函数往往是建立的)。
目标:重新诠释小数据,重新预测大数据。小数据的分析往往侧重于归因分析,探索变量之间的内在影响机制,比如什么样的生活习惯会增加癌症的发病率。但大数据往往关注的是对未知对象的预测,比如判断某人是否患有癌症,或者患癌症的概率。
4.数据分析目标的意义、过程和本质
可以认为数据分析涉及到一个公司运营的方方面面,包括对企业部门运营的评价、内部员工的管理、生产过程的监督、产品结构的优化和新产品的开发、财务成本的优化、市场结构的分析和客户关系的管理。其中,关于客户和市场的数据分析是“重头戏”。以客户生命周期管理为例介绍数据分析应用场景和挖掘主题,如下图所示。
第二,数据挖掘方法论
1.CRISP-DM方法
CRISP-DM方法论将数据挖掘项目生命周期分为六个阶段,分别是业务理解、数据理解、数据准备、建模、模型评估和模型发布,如下图所示。
下图显示了通用数据挖掘方法(CRISP-DM)过程的六个阶段。下面简单介绍一下各个阶段的要点。
商业理解的初始阶段,重点是从商业的角度理解项目的目标和需求,通过理论分析将其转化为数据挖掘的运营问题,并制定实现目标的初步方案。
数据理解数据理解的阶段是从原始数据的收集开始,其次是熟悉数据,标记数据质量问题,探索对数据的初步理解,寻找感兴趣的子集,形成探索关系的假设。
数据准备数据准备阶段包括从原始数据和未经处理的数据中构建数据挖掘所需信息的所有活动。数据准备任务可能会进行多次,没有规定的顺序。这些任务的主要目的是根据量纲分析的要求从源系统中获取所需的信息,需要对数据进行转换和清洗。
在这个阶段,建模主要是选择和应用各种建模技术,同时标定它们的参数,以达到最优值。通常,对于同一个数据挖掘问题类型,有许多建模技术。有些技术对数据格式有特殊要求,往往需要回到数据准备阶段。
评估:在模型最终发布之前,根据业务目标对模型进行评估,并检查构建模型的步骤。这个阶段的关键目的是判断是否有一些重要的业务问题没有得到充分考虑。
模型部署后,模型用户(客户)将根据当时的背景和目标完成情况,决定如何在现场使用模型。例如,网页的实时个性化或营销数据的重复评分。
2.SEMMA方法论
SAS的数据挖掘项目实现方法论,扩展了CRISP-DM方法中的数据准备和建模环节,称为SEMMA方法,如下图所示。
3.5步骤中的主要任务,如下图所示。
数据整理
涉及数据采集、数据合并和采样的操作旨在构建用于分析的数据。分析人员根据量纲分析得到的结果,以数据为依据,将公司内外分散的数据进行整合。
样本探索
这一步的主要任务是探索数据质量。变量的质量涉及数值不正确(如年龄=-30)、适当性(客户的部分业务指标为缺失值,但实际上并无此项业务,值应为“0”)、缺失值(无客户的收入信息)、一致性(收入单位为人民币,而支出单位为美元)、平稳性(部分数据的均值变化过于剧烈)、重复值(同一交易这部分探索主要解决变量出错时能否修改使用的问题。
变量修改
根据变量探索的结论,需要分别修改数据质量和变量分布。数据质量问题的修改包括纠正错误代码、填充缺失值和统一单位。变量分布的修改涉及函数转换和标准化方法,具体的修改方法需要结合后续的统计建模方法。
根据建模分析的目的选择合适的模型。这一部分在《数据分析方法分类介绍》中已经有详细描述,这里不再赘述。
这里的模型验证是指模型的样本内验证,即利用历史数据来评价模型的性能。比如对于监督学习,会用ROC曲线、提升度等技术指标来评估模型的预测能力。
不同人员在数据分析中的角色和职责
业务问题是需求,最终需要转化为统计学或数据挖掘问题,要用数据分析的思路来解决。因此,数据分析师在业务和数据之间起到协调作用,这是业务问题能否成功转化为统计问题的关键。一般来说,业务问题需要用一个或多个字段来表示。这些字段以什么形式出现(比如测量级别)?因为字段的形式将决定所选择的方法,而每种方法都是用来解决特定的需求。此外,由于模型对于业务人员或企业高管来说可能过于专业,因此需要通俗地表达模型输出。因此,协调者、数据分析师和报告者的角色决定了数据分析师是一个综合型人才(精通数学和软件)。
第三,举例详细
1.公司市场部月度会议上报的经营指标汇总属于以下哪种数据分析?
形容词(adjective的缩写)客户行为的数据挖掘报告
B.描述性数据分析报告
碳(carbon的缩写)产品和行为趋势报告
D.以上都不对。
答案:B解析:按照惯例,业务指标汇总通常报告业绩指标的数量、金额、百分比或排名等信息。这些分析大多属于描述性数据分析,是单变量分析的内容。AC项涉及行为特征与商品特征的关系,属于多元分析的内容。
2.以下哪一项包含在数据分析的层级中?
形容词(adjective的缩写)特别调查
B.多维分析(也称为钻探或OLAP)
碳(carbon的缩写)统计分析和报警
D.与业务人员协商知识点
答案:ABC分析:考查数据分析的八个层次,需要在理解的基础上进行记忆。
3.统计模型主要用来解决什么样的问题?
形容词(adjective的缩写)预测分类问题
B.OLAP分析问题
碳(carbon的缩写)相关分析
D.市场分割
答案:ACD解析:A、C、D项是统计模型的典型问题,但OLAP解析题不是统计模型。
4.下列关于数据挖掘过程的陈述是正确的:
形容词(adjective的缩写)方法论CRISP-DM和SEMMA是业内公认的权威流程,严格按照步骤做数据分析是不会错的。
B.CRISP-DM(翻译为“跨行业”数据挖掘)适用于任何数据分析行业。
碳(carbon的缩写)SEMMA方法是CRISP-DM方法中数据准备和建模的扩展。
D.因为数据干净整洁,不需要数据预处理就可以从建模开始。
答案:C解析:AB两者犯的都是同一种错误,就是太迷信方法论的权威。D项对数据分析的概述是一个非常重要的分析前过程。不仅如此,模型对数据的要求也很高,样本探索、变量排序等预处理工作也不能省略。
5.关于客户生命周期管理,以下哪一项不属于对现有高价值客户的分析?
形容词(adjective的缩写)行为信用评分
B.初始信用评分
碳(carbon的缩写)产品精准营销
D.客户保持管理
答案:B分析:高价值客户属于企业的现有客户,而初始信用评分属于潜在响应客户的战略分析。
6.统计模型主要用来解决什么样的问题?
形容词(adjective的缩写)预测分类问题
B.OLAP分析问题
碳(carbon的缩写)相关分析
D.市场分割
答案:ACD解析:A、C、D项是统计模型的典型问题,但OLAP解析题不属于统计模型。
更多cda数据分析试题(CDA数据分析考试大纲pdf)相关信息请关注本站,本文仅仅做为展示!