Google Colab 上的 RAPIDS#

概述#

RAPIDS cuDF 已预装在 Google Colab 上,只需零代码修改即可立即加速 Pandas。您可以通过我们的教程笔记本快速开始使用。本指南适用于希望在其工作流程中利用全套 RAPIDS 库的用户。它分为两个部分:

  1. RAPIDS 快速安装 - 适用于大多数用户,并快速安装所有 RAPIDS 稳定版软件包。

  2. RAPIDS 自定义设置说明 - 提供逐步设置说明,涵盖用户需要调整实例以适应其工作流程时的必备项

在这两个部分中,我们都将使用 pip 在 Colab 上安装 RAPIDS。pip 安装允许用户在几分钟内安装 cuDF、cuML、cuGraph、cuXfilter 和 cuSpatial 的稳定版本。

在 Colab 上安装 RAPIDS 旨在成为一个“始终有效”的解决方案,有时会锁定 RAPIDS 版本以确保兼容性。

第 1 部分:RAPIDS 快速安装#

第 2 部分:用户可自定义的 RAPIDS 安装说明#

1. 启动笔记本#

要在 Google Colab 中开始使用,请点击顶部工具栏中的 File(文件)以创建新的或上传现有的笔记本。

2. 设置运行时#

点击 Runtime(运行时)下拉菜单并选择 Change Runtime Type(更改运行时类型)。

Screenshot of create runtime and runtime type

为硬件加速器选择 GPU。

Screenshot of gpu for hardware accelerator

3. 检查 GPU 类型#

检查 !nvidia-smi 的输出,确保您已分配到兼容 RAPIDS 的 GPU(请参阅 RAPIDS 安装文档)。

Screenshot of nvidia-smi

4. 在 Colab 上安装 RAPIDS#

您可以使用 pip 安装 RAPIDS。该脚本首先检查 GPU 与 RAPIDS 的兼容性,然后使用 pip 安装一些核心 RAPIDS 库(例如 cuDF、cuML、cuGraph 和 xgboost)的最新稳定版本。

# Colab warns and provides remediation steps if the GPUs is not compatible with RAPIDS.

!git clone https://github.com/rapidsai/rapidsai-csp-utils.git
!python rapidsai-csp-utils/colab/pip-install.py

5. 测试 RAPIDS#

在 Python 单元格中运行以下代码。

import cudf

gdf = cudf.DataFrame({"a":[1,2,3], "b":[4,5,6]})
gdf
    a   b
0   1   4
1   2   5
2   3   6

6. 下一步#

尝试一个更全面的示例,了解如何在 Google Colab 上使用 cuDF,“10 分钟了解 RAPIDS cuDF 的 pandas 加速器模式 (cudf.pandas)”(Google Colab 链接)。