使用 dask_cudf 的多 GPU cuxfilter#
Dask-cuDF 在必要时扩展了 Dask,使其 DataFrame 分区可以使用 cuDF GPU DataFrame 而不是 Pandas DataFrame 进行处理。例如,当你调用 dask_cudf.read_csv(…) 时,你的集群中的 GPU 会使用底层的 cudf.read_csv() 来解析 CSV 文件。
何时使用 cuDF 和 Dask-cuDF#
如果你的工作流程在单块 GPU 上足够快,或者你的数据可以轻松地放入单块 GPU 的内存中,那么你会想使用 cuDF。如果你想将工作流程分布到多块 GPU 上,拥有的数据比单块 GPU 的内存能容纳的更多,或者想一次分析分散在多个文件中的数据,那么你会想使用 Dask-cuDF。
一份非常有用的 Dask-cudf 使用指南可以在这里找到
使用 Dask-cudf 的 Cuxfilter#
将 cuxfilter 与 Dask-cudf 一起使用是一种非常无缝的体验,传入一个 dask_cudf.DataFrame 对象而不是 cudf.DataFrame 对象应该就可以工作,无需进行任何其他修改。然而,dask_cudf.DataFrame 在传递给 cuxfilter.DataFrame.from_dataframe 函数之前,应该已经设置好其分区并完成初始化。
有关更多信息和示例,请访问 cuxfilter 仓库中的dask_cudf 笔记本
库 |
图表类型 |
---|---|
bokeh |
条形图, 折线图 |
datashader |
散点图, 地理散点图, 折线图, 堆叠折线图, 热力图, 图 (注意:目前对边的渲染支持有限) |
panel_widgets |
范围滑块, 日期范围滑块, 浮点数滑块, 整数滑块, 下拉列表, 多选, 卡片, 数字 |
自定义 |
查看 DataFrame |
deckgl |
着色地图 (3D 和 2D) |