GraphAr 调研
- 全称: Graph Archive
- 官网: https://graphar.apache.org
- 官网介绍: An open source, standard data file format for graph data storage and retrieval. 开源的图数据文件存储标准, 兼具一定的检索功能
特性
- 多种文件格式: 支持 ORC, Parquet, CSV 三种文件格式.
- 多种表示方式: 支持简单图及属性图, 支持不同的图拓扑结构的表示方式(COO, CSR 和 CSC).
- Apache 生态兼容良好: ORC, Parquet为Hive、Flink、Spark 等 Apache 生态组件均支持的列式存储文件格式.
- 图计算通用: 方便不同的单机/分布式图计算引擎、数据库加载使用, 也能支持丰富的下游计算任务, 如外存图计算(非直接支持, 均需要开发对接).
- 增量方便: 可以在不改动原有文件的情况下添加新的属性, 在图中添加一组新的类型的点/边, 通过不同类型和点和边的自由组合来构建一个新的图等.
- 图分区存储, Chunk
- 列式存储图加载比传统从 CSV 加载更快,
- 边文件冗余存储, 有 orderBySrcId 和 orderByDstId, offset, 故支持简单的快速检索,
总结
GraphAr 严格来说是阿里想要推动的一套图数据存储和管理标准, 以达到其引导图计算相关生态发展的目的. 2024 年 3 月 25 日刚成为成为 ASF 孵化项目, 目前仅了解到阿里巴巴的 GraphScope, Vineyard 和 Fabarta 图数据库系统进行了对接, 其余图计算平台、图数据库还未明确表示对该标准有兼容的意向, 发展前景还不够清晰.
变更历史
最后更新于: 查看全部变更历史
docs: update docs
于 2024/11/19整理tag
于 2024/11/4更改navbar
于 2024/11/4升级主题+整理文章格式
于 2024/11/1整理文章格式
于 2024/10/29update
于 2024/10/17新增文字+CRLF全部替换为LF
于 2024/10/17升级主题+新增文章+修改格式
于 2024/10/14升级版本+规整文档中的格式
于 2024/10/11给予文件夹顺序
于 2024/9/24调整博客分类+修改about-me.md
于 2024/9/24first commit
于 2024/9/20