Skip to content

大数据到底是什么?

848字约3分钟

大数据

2024-02-28

虽然我们不断在说大数据时代已经到来, 但是大数据到底是什么?

技术支撑

大数据时代的到来很大程度上是因为技术有了质的飞跃.

  1. 存储设备容量增加
  2. CPU 处理能力大幅提升
  3. 网络宽带不断增加

发展历程

阶段时间内容
第一阶段: 萌芽20 世纪 90 年代-21 世纪初数据挖掘理论和数据库技术的逐步成熟, 出现如数据仓库, 专家系统, 知识管理系统等应用.
第二阶段: 成熟21 世纪前 10 年Web 2.0 迅速发展, 非结构化数据大量产生, 传统方法无法应对, 大数据解决方案逐渐成熟. 形成了并行计算与分布式系统两大核心技术, Hadoop 平台开始大行其道.
第三阶段: 大规模应用2010 年后大数据开始渗透各行各业, 数据驱动决策

大数据概念

  1. 数据量大
  2. 数据类型繁多. 包括邮件, 音频, 视频, 微信, 位置信息, 网络日志等.
  3. 处理速度快
  4. 价值密度低. 监控视频只有案发的几分钟有意义.

大数据的影响

对科学研究的影响

图灵奖获得者 Jim Gray 总结认为科学研究的范式分为以下四类:

  1. 实验科学
  2. 理论科学
  3. 计算科学
  4. 数据科学

提示

3, 4 之间的区别在于 3 是先提出可能再搜集数据, 然后通过计算来验证. 4 是先大量收集数据, 然后从数据中发掘出未知的结论.

对思维方式的影响

  1. 全样而非抽样
  2. 效率而非精确
  3. 相关而非因果

大数据关键技术

技术功能
数据采集与预处理ETL 工具将分布的, 异构数据源中的数据抽取到临时中间层进行清洗, 转换和集成, 最后加载到数据仓库中. 也可以利用日志采集工具(如 Kafka)将实时采集的数据作为流计算系统的输入, 进行实时分析.
数据存储和管理利用分布式文件系统, 数据仓库, 关系数据库, NoSQL 数据库, 云数据库等, 时间对结构化, 半结构化和非结构化的海量数据存储.
数据处理与分析利用分布式并行模型和计算框架, 对海量数据进行处理和分析.
数据安全和隐私保护构建隐私数据保护体系和数据安全体系.

大数据计算模式

计算模式解决问题代表产品
批处理计算针对大规模数据的批量处理MapReduce, Spark
流计算针对流数据的实时计算Storm, S4, Flume, Streams, Puma, DStream, SuperMario, 银河流数据处理平台
图计算针对大规模图结构数据的处理Pregel, GraphX, Giraph, PowerGraph, Hama, GoldenOrb
查询分析计算大规模数据的存储管理和查询分析Dremel, Hive, Cassandra, Impala




变更历史

最后更新于: 查看全部变更历史
  • docs: update docs

    于 2024/11/19
  • 整理文章格式

    于 2024/10/29
  • update

    于 2024/10/17
  • 新增文字+CRLF全部替换为LF

    于 2024/10/17
  • 升级主题+规整文章格式

    于 2024/10/15
  • 升级主题+新增文章+修改格式

    于 2024/10/14
  • 升级版本+规整文档中的格式

    于 2024/10/11
  • 给予文件夹顺序

    于 2024/9/24
  • first commit

    于 2024/9/20