第六章:数据治理作用的数据分类是什么

第六章:数据治理作用的数据分类是什么

数据治理在真正落地过程时(即数据管理的时候) , 针对的数据也需要明确一下 , 能够治理哪种类型的数据 , 哪种类型不在数据治理范围内 。
本章我们主要对数据按照结构和数据内容上进行一个划分 , 看看数据治理主要是针对哪类的数据 。

一、从数据结构上从数据的结构上来说 , 数据主要分成三种类型:结构化数据、半结构化数据、非结构化数据 。

1. 结构化数据结构化数据是指具有明确的结构和格式 , 可以用固定的模式进行组织和存储的数据 。
通常它遵循特定的数据模型 , 比如关系型数据库中的表结构 , 数据以行和列的形式呈现 , 每一列都有明确的数据类型定义(如整数、字符串、日期等) , 便于进行高效的查询、分析以及计算机程序的处理 。
常见的结构化数据来源包括企业的财务系统数据(如账目明细、报表等)、客户关系管理系统(CRM)中客户的基本信息(姓名、联系方式、地址等) 。

2. 半结构化数据半结构化数据具有一定的结构 , 但不像结构化数据那样严格遵循固定的模式 。
它一般包含有标签或者标记来对数据元素进行区分 , 但整体结构相对灵活 , 可扩展性较强 。
常见的表现形式有 XML(可扩展标记语言)、JSON(JavaScript 对象表示法)格式的数据 , 例如在网页中 , 通过 HTML 标签来组织不同部分的内容(标题、正文等) , 其内容结构有一定条理但又不像数据库表那样固定 , 还有日志文件 , 有一些时间戳、事件类型等标识 , 但每行记录的具体详细内容长度、格式等可能有差异 。

3. 非结构化数据非结构化数据是指那些没有固定结构 , 难以用传统的数据库表结构等方式进行组织和存储的数据 。
这类数据形式多样 , 通常以文本、图像、音频、视频等形式存在 。
比如员工写的工作总结文档(文本内容随意性大 , 没有固定格式规范)、监控摄像头拍摄的视频资料、会议的语音记录等 , 其内容理解和处理往往需要借助特定的技术手段(如自然语言处理用于文本分析、图像识别技术用于图像内容解析等) 。

二、从数据内容上如果从数据内容上进行划分大概可以划分为四类:主数据、参考数据、事务数据(交易数据)、统计分析数据 。
有的也会将元数据放在这个分类中 。 但个人觉得元数据是另一个层面的数据 。 暂时不放在一起讨论了 。

1. 主数据主数据又被称为“黄金数据” 。
主数据是企业内用来描述核心业务实体的数据 , 具有高稳定性、跨业务流程和系统共享的特点 。
它是企业运营的关键基础信息 , 像企业中涉及的客户、供应商、员工、产品、资产等这些核心对象的基本信息都属于主数据范畴 。
主数据的准确性、一致性和完整性至关重要 , 因为它会被多个业务部门和不同的业务系统所引用 , 一旦出现错误或不一致 , 可能会导致整个业务流程的混乱 , 比如在销售部门、售后部门以及财务部门都会用到客户的主数据来开展相应业务工作 。
主数据管理(MDM)是数据治理领域一个专门的话题 , 其主要目的是对关键业务实体(如员工、客户、产品、供应商等)建立统一视图 , 让客观世界里本是同一个人或物 , 在数据世界里也能做到唯一识别 , 而不是在不同系统、不同业务中成为不同的人或物 。
主数据治理的核心思想和数据治理的思路方法是一脉相承的 , 但是因为他过于重要 , 通常又被放在一个单独的领域去独立讨论 。 如涉及到客户主数据的时候 , 有ECIF系统 , ECIF是企业级客户信息整合系统(Enterprise Customer Information Facility) 。
个人也曾经参与过一个ECIF系统的建设 , 当时主要是使用客户的三证信息(证件类型、证件号码、姓名 , 忘了是否包含性别了 。 )生成唯一的一个ECIF_ID来保证不同系统里面的客户判断是否是同一个人 。 这种过程其实是使用工程化的思路来保证不同系统里面的关键主数据的唯一性 。 每一次也主要针对一类主数据 。 这类主数据确定之后 , 不同业务系统中如何进行接入或者更新 , 都是需要从系统工程改造层面进行考虑的 , 而不仅仅是数据治理层面了 。
所以主数据的治理虽然在核心思路上和数据治理是一致的 , 过程也都需要数据集成、数据清洗 , 保证数据质量 , 但是在实现的时候更加偏工程化的实现 , 还是更加偏数据治理的来实现 , 确实是一个需要考虑的过程 。 目前个人也没有特别好的思路 。 只能说主数据是数据治理中的一个重要部分 。 至于说是否将主数据直接包含在数据治理过程中 , 需要考虑定义好的 。
听说华为是因为财务主数据的不一致 , 在进行结算的时候不能对齐 , 所以才启动的华为数据治理 。 也就有了华为那本《华为数据治理之道》 。 不过像上面说的 , 是否将主数据都包含在数据治理领域 , 包含哪些类型的主数据 , 确实需要仔细讨论一下 。

2. 参考数据参考数据通常是一组相对固定的、用于对其他数据进行分类、描述、参照的数据集合 。
它起到了一种标准、规范或者代码表的作用 , 帮助企业确保数据录入和使用的一致性 。
参考数据一般变动频率较低 , 用于给业务操作和数据记录提供标准选项 。
例如 , 国家地区代码表(用特定代码对应不同的国家和地区)、性别分类(用特定代码或值表示男、女等)、学历层次分类(如小学、初中、高中、本科等)都属于参考数据 , 它能让不同业务人员在填写相关信息时按照统一标准来执行 , 便于后续的数据统计与分析 。
一般参考数据也会有一些国家标准、地方标准、行业标准等等 。 提供参考 。 可以直接使用这些标准 。

3. 事务数据事务数据 , 或者称为交易数据 。
事务数据是企业在日常业务运营过程中 , 由具体业务活动所产生的数据 , 它记录了业务事件的详细情况 , 通常与业务流程紧密相关 , 且数据量往往随着业务的开展不断增长 。
例如订单的下单记录、库存的出入库记录、财务的每一笔收支记录等都属于事务数据 。 它能够反映企业业务的动态变化情况 , 是后续进行业务分析、审计、流程优化等工作的重要依据 。

4. 统计分析数据统计分析数据大部分是一种指标数据 。
统计分析数据是对企业业务活动进行统计分析 。 且分析的数据主要是对事务数据进行汇总加工 。
指标数据是数据治理的重点 , 指标的数据流分析、指标数值的波动性、平衡性监控 , 几乎是各个企业做数据治理时一定会做的 。

三、从数据来源上划分从数据来源上划分 , 又分为内部数据和外部数据 。

1. 内部数据是企业或组织自身运营过程中产生的数据 , 比如企业内部的生产数据(产量、生产时间、工艺参数等)、销售数据(订单数量、销售额、客户信息等)、人力资源数据(员工基本信息、考勤情况、绩效情况等) , 这些数据反映了组织内部的业务开展、管理等各方面状态 , 是进行内部管理分析、决策的重要依据 。
【第六章:数据治理作用的数据分类是什么】
2. 外部数据来自于企业或组织外部的环境 , 包括宏观经济数据(如国家 GDP 增长数据、通货膨胀率等)、行业数据(如行业平均利润率、市场占有率分布等)、市场调研数据(通过外部调研机构收集的消费者偏好、市场需求情况等) , 外部数据有助于企业了解所处的大环境 , 对比自身与行业整体情况 , 辅助制定战略、规划等 。

四、数据治理作用的数据分类是什么我们在数据治理过程中 , 数据治理针对哪类的数据?
从数据结构上 , 数据治理主要针对的是结构化的数据 , 部分半结构化的数据在转换为固定结构之后 , 也可以在数据治理范围内 。 但是针对非结构化数据的治理 , 一般不在范围内 。 但是 , 非结构化数据的治理也是一个特别的领域 , 这部分如何治理也是需要研究的 。
从数据内容上 , 数据治理主要针对的是业务数据和统计分析数据 。 参考数据不绝对 , 有时候可以放在维度中进行考虑 。 针对主数据 , 就需要特别考虑一下 , 在治理思路上数据治理和主数据治理是相同的 。 但是是否将主数据治理也纳入到数据治理的整个过程中 , 确实需要慎重考虑的 。 是更加偏工程化的每次进行一类主数据的治理 , 还是在数据治理中统一进行全部主数据治理 。 是需要在项目之初考虑清楚的 。
从数据来源上 , 数据治理对于内部数据还是外部数据 , 只要在数据结构上试用 , 其实都是在数据治理的范围内的 。 不过针对外部数据的时候 , 需要更多的考虑数据的权限、隐私等等 。

五、总结本章对数据从不同的维度 , 进行了一个分类 。 讨论一下个人认为数据治理针对哪类的数据更加适合 。 算是在说起数据治理的时候 , 能够更加明确知道作用的数据类型是什么 。
本文由人人都是产品经理作者【数据小吏】 , 微信公众号:【数据小吏】 , 原创/授权 发布于人人都是产品经理 , 未经许可 , 禁止转载 。
题图来自Unsplash , 基于 CC0 协议 。

    推荐阅读