Compute Engine 实例#

创建虚拟机#

创建一个新的包含 GPU、Compute Engine 实例NVIDIA 驱动程序NVIDIA 容器运行时的虚拟机。

NVIDIA 维护一个预装了 NVIDIA 驱动程序和容器运行时的虚拟机镜像 (VMI),我们推荐使用此镜像。

  1. 打开 Compute Engine

  2. 选择 创建实例

  3. 选择顶部的 从...创建 VM 选项。

  4. 选择 Marketplace

  5. 搜索“nvidia”并选择 NVIDIA GPU-Optimized VMI,然后选择 启动

  6. 新的 NVIDIA GPU 优化 VMI 部署 界面中,填写 VM 的名称和任何所需信息(对于大多数用户而言,默认值即可)。

  7. 阅读并接受 服务条款

  8. 选择 部署 以启动虚拟机。

允许网络访问#

为了访问 Jupyter 和 Dask,我们需要设置一些防火墙规则来打开一些端口。

创建防火墙规则#

  1. 打开 VPC Network

  2. 选择 防火墙创建防火墙规则

  3. 为规则命名,例如 rapids,并确保网络与您为 VM 选择的网络匹配。

  4. 添加一个标签,例如 rapids,我们将使用它将规则分配给我们的 VM。

  5. 设置您的源 IP 范围。我们建议您将其限制为您自己的 IP 地址或公司网络,而不是 0.0.0.0/0,因为后者将允许任何人访问您的 VM。

  6. 协议和端口 下,允许端口 22,8786,8787,8888 上的 TCP 连接。

将其分配给 VM#

  1. 打开 Compute Engine

  2. 选择您的 VM 并按 编辑

  3. 向下滚动到 网络 并添加您为防火墙规则指定的 rapids 网络标签。

  4. 选择 保存

连接到 VM#

接下来,我们需要连接到 VM。

  1. 打开 Compute Engine

  2. 找到您的 VM 并按 SSH 按钮,这将在新的浏览器选项卡中打开一个终端。

  3. 阅读并接受 NVIDIA 安装程序提示。

安装 RAPIDS#

您可以通过 RAPIDS 版本选择器 查看多种安装 RAPIDS 的方法。

在本示例中,我们将运行 RAPIDS Docker 容器,因此我们需要知道最新容器的名称。在版本选择器中,选择 方法 列中的 Docker

然后复制显示的命令

docker pull nvcr.io/nvidia/rapidsai/notebooks:25.04-cuda12.8-py3.12
docker run --gpus all --rm -it \
    --shm-size=1g --ulimit memlock=-1 \
    -p 8888:8888 -p 8787:8787 -p 8786:8786 \
    nvcr.io/nvidia/rapidsai/notebooks:25.04-cuda12.8-py3.12

注意

如果在运行这些命令时看到“docker socket permission denied”错误,请尝试关闭并重新连接您的 SSH 窗口。发生此错误是因为您的用户只有在登录后才被添加到 docker 组。

测试 RAPIDS#

要访问 Jupyter,请在浏览器中导航到 <VM ip>:8888

在 Python notebook 中,检查您是否可以导入和使用像 cudf 这样的 RAPIDS 库。

In [1]: import cudf
In [2]: df = cudf.datasets.timeseries()
In [3]: df.head()
Out[3]:
                       id     name         x         y
timestamp
2000-01-01 00:00:00  1020    Kevin  0.091536  0.664482
2000-01-01 00:00:01   974    Frank  0.683788 -0.467281
2000-01-01 00:00:02  1000  Charlie  0.419740 -0.796866
2000-01-01 00:00:03  1019    Edith  0.488411  0.731661
2000-01-01 00:00:04   998    Quinn  0.651381 -0.525398

打开 cudf/10min.ipynb 并执行单元格,以进一步探索 cudf 的工作原理。

运行 Dask 集群时,您还可以访问 <VM ip>:8787 来监控 Dask 集群状态。

清理#

完成后,返回到 部署 页面并删除您创建的 marketplace 部署。

相关示例#

使用十亿行挑战测量性能

工具/dask-cuda 数据格式/csv 库/cudf 库/cupy 库/dask 库/pandas 云/aws/ec2 云/aws/sagemaker 云/azure/azure-vm 云/azure/ml 云/gcp/compute-engine 云/gcp/vertex-ai

使用十亿行挑战测量性能

使用 dask-ml 和 cuml 进行 HPO

数据集/airline 库/numpy 库/pandas 库/xgboost 库/dask 库/dask-cuda 库/dask-ml 库/cuml 云/aws/ec2 云/azure/azure-vm 云/gcp/compute-engine 云/ibm/virtual-server 库/sklearn 数据存储/s3 工作流/hpo

使用 dask-ml 和 cuml 进行 HPO