大数据到底是什么?
虽然我们不断在说大数据时代已经到来,但是大数据到底是什么?
技术支撑
大数据时代的到来很大程度上是因为技术有了质的飞跃。
- 存储设备容量增加。
- CPU 处理能力大幅提升。
- 网络宽带不断增加。
发展历程
阶段 | 时间 | 内容 |
---|---|---|
第一阶段: 萌芽 | 20 世纪 90 年代-21 世纪初 | 数据挖掘理论和数据库技术的逐步成熟,出现如数据仓库,专家系统,知识管理系统等应用。 |
第二阶段: 成熟 | 21 世纪前 10 年 | Web 2.0 迅速发展,非结构化数据大量产生,传统方法无法应对,大数据解决方案逐渐成熟。形成了并行计算与分布式系统两大核心技术,Hadoop 平台开始大行其道。 |
第三阶段: 大规模应用 | 2010 年后 | 大数据开始渗透各行各业,数据驱动决策。 |
大数据概念
- 数据量大。
- 数据类型繁多。包括邮件,音频,视频,微信,位置信息,网络日志等。
- 处理速度快。
- 价值密度低。监控视频只有案发的几分钟有意义。
大数据的影响
对科学研究的影响
图灵奖获得者 Jim Gray 总结认为科学研究的范式分为以下四类:
- 实验科学。
- 理论科学。
- 计算科学。
- 数据科学。
提示
3,4 之间的区别在于 3 是先提出可能再搜集数据,然后通过计算来验证。4 是先大量收集数据,然后从数据中发掘出未知的结论。
对思维方式的影响
- 全样而非抽样。
- 效率而非精确。
- 相关而非因果。
大数据关键技术
技术 | 功能 |
---|---|
数据采集与预处理 | ETL 工具将分布的,异构数据源中的数据抽取到临时中间层进行清洗,转换和集成,最后加载到数据仓库中。也可以利用日志采集工具(如 Kafka)将实时采集的数据作为流计算系统的输入,进行实时分析。 |
数据存储和管理 | 利用分布式文件系统,数据仓库,关系数据库,NoSQL 数据库,云数据库等,时间对结构化,半结构化和非结构化的海量数据存储。 |
数据处理与分析 | 利用分布式并行模型和计算框架,对海量数据进行处理和分析。 |
数据安全和隐私保护 | 构建隐私数据保护体系和数据安全体系。 |
大数据计算模式
计算模式 | 解决问题 | 代表产品 |
---|---|---|
批处理计算 | 针对大规模数据的批量处理 | MapReduce,Spark |
流计算 | 针对流数据的实时计算 | Storm,S4,Flume,Streams,Puma,DStream,SuperMario,银河流数据处理平台 |
图计算 | 针对大规模图结构数据的处理 | Pregel,GraphX,Giraph,PowerGraph,Hama,GoldenOrb |
查询分析计算 | 大规模数据的存储管理和查询分析 | Dremel,Hive,Cassandra,Impala |
本文参考资料
贡献者
更新日志
2025/2/24 09:08
查看所有更新日志