如何使用 chDB 查询 Apache Arrow
Apache Arrow 是一种标准化的列式内存格式,在数据社区中获得了广泛的关注。
在本指南中,我们将学习如何使用 Python
表函数查询 Apache Arrow。
设置
首先,我们创建一个虚拟环境:
现在我们将安装 chDB。
确保您有 2.0.2 或更高版本:
接下来,我们将安装 PyArrow、pandas 和 ipython:
我们将使用 ipython
在指南的其余部分中运行命令,您可以通过运行以下命令启动它:
您也可以在 Python 脚本或您喜欢的笔记本中使用这些代码。
从文件创建 Apache Arrow 表
首先,让我们下载 Ookla 数据集 的一个 Parquet 文件,使用 AWS CLI 工具:
备注
如果您想下载更多文件,请使用 aws s3 ls
获取所有文件的列表,然后更新上述命令。
接下来,我们将从 pyarrow
包中导入 Parquet 模块:
然后我们可以将 Parquet 文件读取到 Apache Arrow 表中:
架构如下所示:
我们可以通过调用 shape
属性来获取行和列的计数:
查询 Apache Arrow
现在让我们从 chDB 查询 Arrow 表。
首先,导入 chDB:
然后我们可以描述表:
我们还可以计算行数:
现在,让我们做一些更有趣的事情。
以下查询排除了 quadkey
和 tile.*
列,然后计算所有剩余列的平均值和最大值: