Skip to content

GraphAr 调研

约 520 字大约 2 分钟

大数据

2024-04-29

  • 全称:Graph Archive。
  • 官网:https://graphar.apache.org
  • 官网介绍:开源的图数据文件存储标准,兼具一定的检索功能。

特性

  1. 多种文件格式:支持 ORC,Parquet,CSV 三种文件格式。
  2. 多种表示方式:支持简单图及属性图,支持不同的图拓扑结构的表示方式(COO,CSR 和 CSC)。
  3. Apache 生态兼容良好:ORC,Parquet为Hive、Flink、Spark 等 Apache 生态组件均支持的列式存储文件格式。
  4. 图计算通用:方便不同的单机/分布式图计算引擎、数据库加载使用,也能支持丰富的下游计算任务,如外存图计算(非直接支持,均需要开发对接)。
  5. 增量方便:可以在不改动原有文件的情况下添加新的属性,在图中添加一组新的类型的点/边,通过不同类型和点和边的自由组合来构建一个新的图等。
  6. 图分区存储。
  7. 列式存储图加载比传统从 CSV 加载更快
  8. 边文件冗余存储。有 orderBySrcId 和 orderByDstId,offset,故支持简单的快速检索。

总结

GraphAr 严格来说是阿里想要推动的一套图数据存储和管理标准,以达到其引导图计算相关生态发展的目的。2024 年 3 月 25 日刚成为成为 ASF 孵化项目,目前仅了解到阿里巴巴的 GraphScope,Vineyard 和 Fabarta 图数据库系统进行了对接,其余图计算平台、图数据库还未明确表示对该标准有兼容的意向,发展前景还不够清晰。




贡献者

更新日志

2025/3/6 02:33
查看所有更新日志
  • 876bb-improve(docs): use chinese punctuation
  • 1289a-improve(docs): delete extra whitespace and blank lines
  • c2111-modify(docs): remanage folders and rename files
  • 96e66-docs: update docs
  • e33f4-整理tag
  • 0440f-更改navbar
  • 71726-升级主题+整理文章格式
  • 978a9-整理文章格式
  • f86ee-update
  • 93933-新增文字+CRLF全部替换为LF

Keep It Simple