大数据的主要特征是什么 什么是大数据时代( 二 )


数据极少有更新或删除操作;
数据产生频率快、数据信息量大;
数据往往带有位置信息 。
传统的关系型数据库或非关系型数据库对于这类数据,在性能提升上极为有限,只能依靠集群技术,投入更多的计算资源和存储资源来处理,造成企业运营成本急剧上升 。而时序数据库可以有效地处理庞大的数据,通过创新的列式存储和先进的压缩算法,使用的计算资源不到传统方案的1/5,存储空间不到通用数据库的1/10 。
常见的时序数据库有InfluxDB等 。
07.什么是分布式存储?分布式存储是相对于集中式存储而言的 。分布式存储是由标准服务器(硬件)和分布式文件系统(软件)组成的,可扩展至千台硬件节点,支持块存储、对象存储、文件存储等多种类型统一管理 。
常见的分布式文件系统有HDFS、Ceph、GFS、GPFS、Swift等 。
举个通俗易懂的例子,如果把存储比喻成车厢,数据比喻成货物 。集中式存储方案下,如果要想拉更多的货物,只能更换更大的车厢 。而分布式存储方案,直接增加车厢就可以了 。有了分布式存储技术,存储EB级别(1EB=1024PB=1024*1024TB=1024*1024*1024GB)的海量数据库都不成问题 。

大数据的主要特征是什么 什么是大数据时代


08.什么是数据集成?由于开发部门或开发时间的不同,企业中往往有多个异构的、运行在不同的软硬件平台上的数据库,这些数据库彼此独立、相互封闭,使得数据难以在系统之间交流和共享,从而形成了"信息孤岛" 。随着信息化应用的不断深入,企业内部之间、企业与外部的信息交互的需求日益强烈,急切需要对已有的数据进行整合,打通"信息孤岛",这就是数据集成的意义 。
数据集成是把不同来源、不同种类、不同格式的数据在物理上或逻辑上进行集中,为企业提供全面的数据共享 。数据集成主要解决的问题是各个数据源的异构性,包括数据库的异构性、通信协议的异构性、数据类型的异构性、数据取值的异构性等 。
09.什么是数据清洗?数据清洗是一种清除错误数据、去掉重复数据的技术 。数据经过清洗之后,可以还保存到原来的数据库中,也可以和数据集成联系在一起,最终保存到集成后的数据库里 。
举几个数据清洗的实例:
1.在用户信息表中,规定有姓名、性别、地址、手机、邮箱五个字段是必填的 。而某些用户缺少某些字段的值,因此需要补充这些数据 。
2.英文的姓名之间规定要有空格,而某些姓名没有空格,比如"JohnSmith",就需要修正这类错误 。
3.有些数据表的金额单位是元,有些数据表的金额单位是万元,数据集成时就需要统一单位 。
4.两条用户记录完全重复,需要进行去重处理 。
10.什么是ETL?ETL是Extraction、Transformation、Loading三个单词的首字母缩写,指的是数据抽取、转换、加载的过程 。
数据抽取是从不同的数据源中获取我们需要的数据的过程,和数据集成的概念类似,这个过程往往会做一些数据清洗和数据转换 。数据转换的任务主要是进行数据格式的转换和一些业务规则的计算 。数据加载通常是指在数据清洗和数据转换完成后,写入到目标数据库中去 。
大数据的主要特征是什么 什么是大数据时代


11.什么是数据分析?数据分析是基于商业需要,有目的的对数据进行收集、整理、加工、分析,最终提炼有价值的信息的过程 。
数据分析的四个步骤:
需求分析、明确目标;
数据收集、加工处理;
数据挖掘、数据展现;

推荐阅读