趣推 趣推邀请码
您当前的位置:首页 > 帮助中心

大数据来源及数量

大数据来源及数量

 
摘要: 面对如此庞大的数据量、以及丰富(至少不再是单一的)的数据,不难想像,对于这些数据的处理速度将会成为企业应用、洞察关键事件的瓶颈。
 
关键词: 大数据
 
1 大数据来源及数量
 
提到数据,相信IT从业人员首先想到的是数据库、数据仓库等技术,毕竟这是一种至今仍然十分流行且占据主导地位的技术。但请记住,这些技术是构建在关系型数据库理论基础上的,具有明显的结构化特征,换言之,存储在数据库、数据仓库中的数据是我们通过分析、建模之后筛选之后出来的、自认为有意义的数据。而在这个过程中,已经摒弃掉了许多自认为无意义的数据,真的没有意义吗?答案当然是否定的。但为什么要摒弃呢?原因很简单,以前的技术条件不允许存储如此庞大的数据量。
 
随着物联网概念的提出、应用和发展,每天从RFID、传感器、控制器、智能设备中都会产生海量数据。据统计,在2000 年,全球存储了800 000 PB 的数据;预计到2020 年,这一数字会达到35 ZB。所以,可以得出这样的结论:大数据从来就是存在的,只是因为技术条件的限制而没有重视或是故意规避而已。
 
2 大数据类型
 
以前保存的数据类型主要是结构化数据。然而,并非所有的数据都是可以结构化的,据统计,可结构化数据———即可以存储在数据库等传统系统(主要是指关系型数据库产品)中的数据占数据总量的20%左右;其他80%的数据不能至少是不便于存储于传统的系统中,因为其结构形式是非结构化的或者是半结构化的(如文本、传感器数据、音频、视频、事务及地震模型类的动态数据等非关系型数据)。
 
所以,从这个角度上来讲,大数据的类型从结构类型入手可以分为结构化、半结构化、非结构化数据3类。
 
3 大数据处理速度及方式
 
面对如此庞大的数据量、以及丰富(至少不再是单一的)的数据,不难想像,对于这些数据的处理速度将会成为企业应用、洞察关键事件的瓶颈。尽管目前还没有得到具体的可度量的值来说明这个问题,但换个角度来考虑,就日常工作中所使用的存储器的存储能力、CPU 频率的变化及不高的工作效率,就完全可以说明数据增长速率对数据处理速度的影响。
 
建议换个角度来考虑这个问题。随着物联网时代的到来,RFID、传感器等产生的信息流将导致产生大量的传统系统无法处理的持续数据流。请牢记一点,现在处理的是PB 级的数据流,而非TB 级的,将来要处理的是ZB 级甚至有可能更高。所以,需要考虑针对数据产生、流动的速度而进行的数据处理方式的变革,如流数据处理;不再是单纯地处理传统系统中的批量数据。