Skip to content

大数据到底是什么?

约 833 字大约 3 分钟

大数据

2024-02-28

虽然我们不断在说大数据时代已经到来,但是大数据到底是什么?

技术支撑

大数据时代的到来很大程度上是因为技术有了质的飞跃。

  1. 存储设备容量增加。
  2. CPU 处理能力大幅提升。
  3. 网络宽带不断增加。

发展历程

阶段时间内容
第一阶段: 萌芽20 世纪 90 年代-21 世纪初数据挖掘理论和数据库技术的逐步成熟,出现如数据仓库,专家系统,知识管理系统等应用。
第二阶段: 成熟21 世纪前 10 年Web 2.0 迅速发展,非结构化数据大量产生,传统方法无法应对,大数据解决方案逐渐成熟。形成了并行计算与分布式系统两大核心技术,Hadoop 平台开始大行其道。
第三阶段: 大规模应用2010 年后大数据开始渗透各行各业,数据驱动决策。

大数据概念

  1. 数据量大。
  2. 数据类型繁多。包括邮件,音频,视频,微信,位置信息,网络日志等。
  3. 处理速度快。
  4. 价值密度低。监控视频只有案发的几分钟有意义。

大数据的影响

对科学研究的影响

图灵奖获得者 Jim Gray 总结认为科学研究的范式分为以下四类:

  1. 实验科学。
  2. 理论科学。
  3. 计算科学。
  4. 数据科学。

提示

3,4 之间的区别在于 3 是先提出可能再搜集数据,然后通过计算来验证。4 是先大量收集数据,然后从数据中发掘出未知的结论。

对思维方式的影响

  1. 全样而非抽样。
  2. 效率而非精确。
  3. 相关而非因果。

大数据关键技术

技术功能
数据采集与预处理ETL 工具将分布的,异构数据源中的数据抽取到临时中间层进行清洗,转换和集成,最后加载到数据仓库中。也可以利用日志采集工具(如 Kafka)将实时采集的数据作为流计算系统的输入,进行实时分析。
数据存储和管理利用分布式文件系统,数据仓库,关系数据库,NoSQL 数据库,云数据库等,时间对结构化,半结构化和非结构化的海量数据存储。
数据处理与分析利用分布式并行模型和计算框架,对海量数据进行处理和分析。
数据安全和隐私保护构建隐私数据保护体系和数据安全体系。

大数据计算模式

计算模式解决问题代表产品
批处理计算针对大规模数据的批量处理MapReduce,Spark
流计算针对流数据的实时计算Storm,S4,Flume,Streams,Puma,DStream,SuperMario,银河流数据处理平台
图计算针对大规模图结构数据的处理Pregel,GraphX,Giraph,PowerGraph,Hama,GoldenOrb
查询分析计算大规模数据的存储管理和查询分析Dremel,Hive,Cassandra,Impala




贡献者

更新日志

2025/2/24 09:08
查看所有更新日志
  • 1ca4c-improve(docs): use chinese punctuation
  • c2111-modify(docs): remanage folders and rename files
  • 96e66-docs: update docs
  • 978a9-整理文章格式
  • f86ee-update
  • 93933-新增文字+CRLF全部替换为LF
  • 5ada9-升级主题+规整文章格式
  • 547bb-升级主题+新增文章+修改格式
  • fb196-升级版本+规整文档中的格式
  • 179ac-给予文件夹顺序

Keep It Simple