数据分析流程及步骤 怎么做数据分析( 四 )


行为数据指用户使用产品在页面上的各种点击行为,在页面上停留时长等 。
业务数据指用户行为之后,实际产生的结果,业务数据会落库业务数据表 。分析业务数据的意义,可以衡量商业价值,是业务最终呈现结果,用以推动公司业务的发展 。
用户数据和行为数据通常可以从第三方数据工具,如友盟、Google Analytics 直接获取,业务数据一般要内部建设 。

数据分析流程及步骤 怎么做数据分析


今天重点讲业务数据搭建完整过程,以阿里云的 Quick BI 为例 。
在整个数据分析的框架中,分为五大层次,依次是:数据生成、获取数据、数据建模、数据分析和数据应用 。

数据分析流程及步骤 怎么做数据分析


1. 数据生成
还是以支付业务为例,用户选择支付方式完成支付后,落库核心的两张业务表:订单表和交易表 。一个订单会对应多笔交易(每选择一种支付方式生成一笔交易,一笔订单可以使用多个支付方式尝试支付),其实还会产生其他表,比如收货地址表等 。

数据分析流程及步骤 怎么做数据分析


2. 获取数据
通常使用第三方工具如 ETL 将业务系统的数据经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库的过程,数据呈现在 BI 的数据源 。

数据分析流程及步骤 怎么做数据分析


3. 数据建模
所有数据进到数仓以后,需要根据实际想要看的业务数据进行数据建模,建模后的数据呈现在数据集 。数据集作为数据源和可视化展示的中间环节,承接数据源的输入,并为可视化展示输出数据表 。

数据分析流程及步骤 怎么做数据分析


4. 构建数据模型
数据建模是什么含义呢?
底层的业务数据表其实很多,几十张上百张都有,但到了业务数据分析阶段,当需要分析的数据存储在不同的表,可以通过数据关联,把多个表连接起来,形成模型进行数据分析 。
比如上述的业务底层订单表到了数据分析阶段衍生的订单表字段发生变化,name 和 city 是从业务地址表取来的数据 。
总的来说,数据模型是完全面向数据分析的业务场景形成的新表 。以支付业务为例,我构建的数据模型有:用户表、订单表和交易表 。

数据分析流程及步骤 怎么做数据分析


5. 设计维度和度量指标
对数据字段可以进行下一步分类:
在统计学中,单一数据字段可以被分为离散和连续 。离散通常是维度,比如城市名称、用户名字,特征是有限数量的值;连续通常是度量,比如销量、利润或成功率,特征是不可罗列,可能为任一数值 。维度和度量中有许多灰色区域,比如金额,可以做维度,也可以做度量 。
在上述订单表中,device、city 等是维度,对 order_id 计数的总订单数、对 status = success 计数的成功订单数是度量 。
度量可以再分原子度量和派生度量 。
原子度量指从维度里直接获取到,上表中的总订单数和成功订单数 。
派生度量并不能直接从数据表中获取,而需要基于已有数据进行加工处理得到,上表中的订单成功率是成功订单数/总订单数得到 。
6. 数据分析
有了维度和度量的概念后,接着引入聚合概念 。对于数据分析来说,往往关心的并不是最底层一行一行的的明细数据,更注重分析数据的角度,关心的是数据的总体特征 。

推荐阅读