300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > CDH-CM大数据管理平台详解 附CDH离线安装包

CDH-CM大数据管理平台详解 附CDH离线安装包

时间:2019-06-21 22:37:56

相关推荐

CDH-CM大数据管理平台详解 附CDH离线安装包

一、大数据概述

1、大数据时代的数据特点

一般认为,大数据主要具有 四方面的典型特征——规模性(Volume)、多样性(Variety)、高速性(Velocity)和价值性(Value), 即所谓的"4V“。

volume(大量):目前处理的数据量基本为PB、EB级别velocity(高速):在极短的一段时间内能产出大量数据(秒杀活动等)variety(多样):数据种类比较多,如日志文件、音频、视频、地理位置信息等value(低价值密度):数据本身的价值比较低,通过对数据分析出有价值的东西

(1)规模性:即大数据具有相当的规模,其数据量非常巨大。

淘宝网近4亿的会员每天产生的商品交易数据约20TB, Facebook (脸书)约10亿的用户每天产生的日志数据超过300TB。数据 的数量级别可划分为B、KB、MB、GB、TB、PB、EB、ZB等,而数据的数量级别为PB级别的 才能称得上是大数据。根据IDC公司的最新研究,未来,全球的数据总量将会增长50倍, 以此推算,数据产生的速度越来越快,而且数据总量将呈现指数型的爆炸式增长。

(2)多样性:即大数据的数据类型呈现多样性。

数据类型繁多,不仅包括结构化数据,还包 括非结构化数据和半结构化数据。其中,结构化数据即音频、图片、文本、视频、网络日志、地理 位置信息等。传统的数据处理对象基本上都是结构化数据,而在现实中非结构化数据也是大量存在 的,所以既要分析结构化数据又要分

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。