大数据到底是什么?
虽然我们不断在说大数据时代已经到来, 但是大数据到底是什么?
技术支撑
大数据时代的到来很大程度上是因为技术有了质的飞跃.
- 存储设备容量增加
- CPU 处理能力大幅提升
- 网络宽带不断增加
发展历程
阶段 | 时间 | 内容 |
---|---|---|
第一阶段: 萌芽 | 20 世纪 90 年代-21 世纪初 | 数据挖掘理论和数据库技术的逐步成熟, 出现如数据仓库, 专家系统, 知识管理系统等应用. |
第二阶段: 成熟 | 21 世纪前 10 年 | Web 2.0 迅速发展, 非结构化数据大量产生, 传统方法无法应对, 大数据解决方案逐渐成熟. 形成了并行计算与分布式系统两大核心技术, Hadoop 平台开始大行其道. |
第三阶段: 大规模应用 | 2010 年后 | 大数据开始渗透各行各业, 数据驱动决策 |
大数据概念
- 数据量大
- 数据类型繁多. 包括邮件, 音频, 视频, 微信, 位置信息, 网络日志等.
- 处理速度快
- 价值密度低. 监控视频只有案发的几分钟有意义.
大数据的影响
对科学研究的影响
图灵奖获得者 Jim Gray 总结认为科学研究的范式分为以下四类:
- 实验科学
- 理论科学
- 计算科学
- 数据科学
提示
3, 4 之间的区别在于 3 是先提出可能再搜集数据, 然后通过计算来验证. 4 是先大量收集数据, 然后从数据中发掘出未知的结论.
对思维方式的影响
- 全样而非抽样
- 效率而非精确
- 相关而非因果
大数据关键技术
技术 | 功能 |
---|---|
数据采集与预处理 | ETL 工具将分布的, 异构数据源中的数据抽取到临时中间层进行清洗, 转换和集成, 最后加载到数据仓库中. 也可以利用日志采集工具(如 Kafka)将实时采集的数据作为流计算系统的输入, 进行实时分析. |
数据存储和管理 | 利用分布式文件系统, 数据仓库, 关系数据库, NoSQL 数据库, 云数据库等, 时间对结构化, 半结构化和非结构化的海量数据存储. |
数据处理与分析 | 利用分布式并行模型和计算框架, 对海量数据进行处理和分析. |
数据安全和隐私保护 | 构建隐私数据保护体系和数据安全体系. |
大数据计算模式
计算模式 | 解决问题 | 代表产品 |
---|---|---|
批处理计算 | 针对大规模数据的批量处理 | MapReduce, Spark |
流计算 | 针对流数据的实时计算 | Storm, S4, Flume, Streams, Puma, DStream, SuperMario, 银河流数据处理平台 |
图计算 | 针对大规模图结构数据的处理 | Pregel, GraphX, Giraph, PowerGraph, Hama, GoldenOrb |
查询分析计算 | 大规模数据的存储管理和查询分析 | Dremel, Hive, Cassandra, Impala |
本文参考资料