此页面由 Cloud Translation API 翻译。

管理 TPU 资源

本页介绍如何使用以下各项管理 Cloud TPU 资源：

Google Cloud CLI、为 Google Cloud 提供主 CLI。
Google Cloud 控制台：管理 Google Cloud 资源的集成式管理控制台。

前提条件

在运行这些过程之前，您必须先安装 Google Cloud CLI， Google Cloud 项目，并启用 Cloud TPU API。如需相关说明，请参阅设置 Cloud TPU 环境。

如果您使用的是 Google Cloud CLI，则可以使用例如 Cloud Shell、Compute Engine 虚拟机或本地机器 Cloud Shell 让您可以轻松与 Cloud TPU 交互，安装任何软件。Cloud Shell 在一段时间后断开无活动。如果您运行的是长时间运行的命令，我们建议您安装在本地机器上运行 Google Cloud CLI。如需详细了解 Google Cloud CLI，请参阅 gcloud 参考文档。

预配 Cloud TPU

您可以使用 Google Cloud 控制台 gcloud 来预配 Cloud TPU，或 Cloud TPU API。

您可以通过以下两种方法使用 gcloud 预配 TPU：

使用已加入队列的资源： gcloud alpha compute tpus queued-resources create
使用 Create Node API：gcloud compute tpus tpu-vm create

最佳实践是使用已加入队列��资源来预配 TPU。当您对已加入队列的资源发出请求时，系统会将该请求添加到由 Cloud TPU 服务。当请求的资源可用时分配给您的 Google Cloud 项目，供您立即独占使用。对于如需了解详情，请参阅代管式已加入队列的资源。

使用多切片时，您必须使用排队的资源并指定以下其他参数：

export NODE_COUNT=node_count
export NODE_PREFIX=your_tpu_prefix # Optional

其中：

${NODE_COUNT} 是要创建的切片数量
${NODE_PREFIX} 是您指定用于为每个切片生成名称的前缀。每个切片的前缀后面会附加一个数字。例如，如果您将从 ${NODE_PREFIX} 映射到 mySlice，这些 Slice 命名为：mySlice-0、mySlice-1、以数字方式继续生成每个切片。

有关多切片的详细信息，请参阅多切片简介

使用 Create Node API 创建 Cloud TPU

创建 Cloud TPU 时，您必须指定 TPU 虚拟机映像（也称为 TPU）软件版本）。如需确定应使用哪个虚拟机映像，请参阅 TPU 虚拟机图片。

您还需要根据 TensorCore 或 TPU 指定 TPU 配置条状标签。如需了解详情，请参阅您使用的 TPU 版本所对应的部分系统架构部分。

gcloud

如需使用 Create Node API 创建 TPU，请使用 gcloud compute tpus tpu-vm create 命令。

以下命令使用基于 TensorCore 的配置：

$ gcloud compute tpus tpu-vm create tpu-name \
  --zone=us-central2-b \
  --accelerator-type=v4-8 \
  --version=tpu-software-version

命令标志说明

zone: 区域创建 Cloud TPU 的位置。
accelerator-type: 加速器类型指定要创建的 Cloud TPU 的版本和大小。如需详细了解每个 TPU 版本支持的加速器类型，请参阅 TPU 版本。
version: TPU 软件版本。
shielded-secure-boot（可选）: 指定在启用安全启动的情况下创建 TPU 实例。这会隐式创建安全强化型虚拟机实例。请参阅什么是安全强化型虚拟机？。

以下命令将创建具有特定拓扑的 TPU：

$ gcloud compute tpus tpu-vm create tpu-name \
  --zone=us-central2-b \
  --type=v4 \
  --topology=2x2x1 \
  --version=tpu-software-version

必需标志

tpu-name: 您正在创建的 TPU 虚拟机的名称。
zone: 您所在的地区创建 Cloud TPU
type: 您要使用的 TPU 版本。如需了解详情，请参阅 TPU 版本。
topology: TPU 芯片的物理排列，指定条状标签。如需详细了解支持的拓扑，请参阅 TPU 版本。
version: 您要使用的 TPU 软件版本。如需了解详情，请参阅 TPU 软件版本。

控制台

在 Google Cloud 控制台中，前往 TPU 页面：

前往 TPU
��击创建 TPU。
在名称字段中，输入 TPU 的名称。
在“可用区”框中，选��要��中创建 TPU 的可用区。
在 TPU 类型框中，选择一个加速器类型。加速器类型指定 Cloud TPU 的版本和大小资源。详细了解支持的加速器类型请参阅 TPU 版本。
在 TPU 软件版本框中，选择一个软件版本。创建 Cloud TPU 虚拟机时，TPU 软件版本指定了要安装的 TPU 运行时的版本。如需了解详情，请参阅 TPU 虚拟机映像。
点击创建以创建资源。

curl

以下命令使用 curl 创建 TPU。

$ curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" -d "{accelerator_type: 'v4-8', \
runtime_version:'tpu-vm-tf-2.17.0-pjrt', \
network_config: {enable_external_ips: true}, \
shielded_instance_config: { enable_secure_boot: true }}" \
https://tpu.googleapis.com/v2/projects/project-id/locations/us-central2-b/nodes?node_id=node_name

必填字段

runtime_version: 您要使用的 Cloud TPU 运行时版本。
project: 已注册的 Google Cloud 项目的名称。
zone: 区域创建 Cloud TPU 的位置。
node_name: 您要创建的 TPU 虚拟机的名称。

运行启动脚本

您可以通过指定 --metadata startup-script 标志。以下命令来创建 TPU 虚拟机。

$ gcloud compute tpus tpu-vm create tpu-name \
    --zone=us-central2-b \
    --accelerator-type=tpu-type \
    --version=tpu-vm-tf-2.17.0-pjrt \
    --metadata startup-script='#! /bin/bash
      pip3 install numpy
      EOF'

连接到 Cloud TPU

gcloud

使用 SSH 连接到您的 Cloud TPU：

$ gcloud compute tpus tpu-vm ssh tpu-name --zone=zone

当您请求大于单个主机的切片时，Cloud TPU 会创建一个每个主机的 TPU 虚拟机。每个主机的 TPU 芯片数量取决于 TPU 版本。

如需安装二进制文件或运行代码，请使用 tpu-vm ssh command。

$ gcloud compute tpus tpu-vm ssh tpu-name

如需连接到特定的 TPU 虚拟机使用 SSH 时，使用 --worker 标志，该标志遵循从 0 开始的索引：

$ gcloud compute tpus tpu-vm ssh tpu-name --worker=1

如需通过单个命令在所有 TPU 虚拟机上运行某个命令，请使用 --worker=all 和 --command 标志：

$ gcloud compute tpus tpu-vm ssh tpu-name \
  --project=your_project_ID \
  --zone=zone \
  --worker=all \
  --command='pip install "jax[tpu]==0.4.20" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'

对于多切片，您可以在单个虚拟机上运行命令使用枚举的 TPU 名称，以及每个切片前缀和附加到它的编号。要运行命令，请使用 --node=all、--worker=all、和 --command 标志， --batch-size 标志。

$ gcloud compute tpus queued-resources ssh ${QUEUED_RESOURCE_ID} \
  --project=project_ID \
  --zone=zone \
  --node=all \
  --worker=all \
  --command='pip install "jax[tpu]==0.4.20" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html' \
  --batch-size=4

控制台

如需在 Google Cloud 控制台中连接到您的 TPU，请使用浏览器中的 SSH：

在 Google Cloud 控制台中，前往 TPU 页面：

前往 TPU
在 TPU 虚拟机列表中，点击要安装的 TPU 虚拟机所在行中的 SSH 目标对象

注意：使用 Google Cloud 控制台连接到 TPU 虚拟机时， Compute Engine 会为您创建一个临时 SSH 密钥。

列出您的 Cloud TPU 资源

您可以列出指定可用区中的所有 Cloud TPU。

gcloud

$ gcloud compute tpus tpu-vm list --zone=zone

控制台

在 Google Cloud 控制台中，前往 TPU 页面：

前往 TPU

检索有关 Cloud TPU 的信息

您可以检索关于指定 Cloud TPU 的信息。

gcloud

$ gcloud compute tpus tpu-vm describe tpu-name \
  --zone=zone

控制台

在 Google Cloud 控制台中，前往 TPU 页面：

前往 TPU
点击您的 Cloud TPU 的名称。控制台会显示 Cloud TPU 详情页面。

停止 Cloud TPU 资源

您可以停止单个 Cloud TPU 以停止产生费用，而不会丢失��拟机的配置和软件。

gcloud

$ gcloud compute tpus tpu-vm stop tpu-name \
  --zone=zone

控制台

在 Google Cloud 控制台中，前往 TPU 页面：

前往 TPU
选中您的 Cloud TPU 旁边的复选框。
点击停止。

启动 Cloud TPU 资源

您可以在 Cloud TPU 停止后启动它。

gcloud

$ gcloud compute tpus tpu-vm start tpu-name \
  --zone=zone

控制台

在 Google Cloud 控制台中，前往 TPU 页面：

前往 TPU
选中您的 Cloud TPU 旁边的复选框。
点击开始。

删除 Cloud TPU

在会话结束时删除 TPU 虚拟机切片。

gcloud

$ gcloud compute tpus tpu-vm delete tpu-name \
  --project=project-id \
  --zone=zone \
  --quiet

命令标志说明

zone: 区域删除 Cloud TPU 的位置。

控制台

在 Google Cloud 控制台中，前往 TPU 页面：

前往 TPU
选中您的 Cloud TPU 旁边的复选框。
点击删除。

高级配置

指定自定义网络资源

创建 TPU 时，您可以选择指定网络或子网

gcloud

如需使用 gcloud CLI 指定网络或子网，请使用以下命令命令标志：

--network NETWORK --subnetwork SUBNETWORK

curl

如需在 curl 调用中指定网络或子网，请添加以下代码将参数添加到请求正文：

network_config: {network: 'NETWORK', subnet: 'SUBNETWORK', enable_external_ips: true}

网络

您可以选择指定要用于 TPU 的网络。如果未指定，使用 default 网络。

有效的网络格式：

https://www.googleapis.com/compute/{version}/projects/{proj-id}/global/networks/{network}
compute/{version}/projects/{proj-id}/global/networks/{network}
compute/{version}/projects/{proj-##}/global/networks/{network}
projects/{proj-id}/global/networks/{network}
projects/{proj-##}/global/networks/{network}
global/networks/{network}
{network}

子网

您可以指定要用于 TPU 的特定子网。指定的子网需要与运行 TPU 的可用区位于同一区域。

有效格式：

https://www.googleapis.com/compute/{version}/projects/{proj-id}/regions/{region}/subnetworks/{subnetwork}
compute/{version}/projects/{proj-id}/regions/{region}/subnetworks/{subnetwork}
compute/{version}/projects/{proj-##}/regions/{region}/subnetworks/{subnetwork}
projects/{proj-id}/regions/{region}/subnetworks/{subnetwork}
projects/{proj-##}/regions/{region}/subnetworks/{subnetwork}
regions/{region}/subnetworks/{subnetwork}
{subnetwork}

启用专用 Google 访问通道

如需使用 SSH 连接到 TPU 虚拟机，您需要添加访问配置或者启用专用 Google 访问通道。

如需添加访问权限配置，您必须设置 enable_external_ips。当您创建一个 TPU，默认设置 enable_external_ips。

如果您想选择停用，请启用内部 IP：

gcloud

创建 TPU 时使用 --internal-ips 标志：

--internal-ips

curl

将以下参数添加到请求正文：

network_config: {enable_external_ips: false}

配置专用 Google 访问通道后，使用 SSH 连接到虚拟机。

附加自定义服务账号

每个 TPU 虚拟机都有一个用于发出 API 请求的关联服务账号。TPU 虚拟机使用此服务账号调用 Cloud TPU API 以及访问 Cloud Storage 和其他服务。默认情况下，您的 TPU 虚拟机会使用默认的 Compute Engine 服务账号。

服务账号必须在同一您在其中创建 TPU 虚拟机的 Google Cloud 项目。已使用的自定义服务账号对于 TPU 虚拟机必须具有 TPU 查看器角色来调用 Cloud TPU API。如果您的 TPU 虚拟机中运行的代码调用其他 Google Cloud 服务，它必须具有访问这些服务所需的角色。

创建 TPU 时，您可以选择指定自定义服务账号使用 --service-account 标志。如需详细了解服务账号请参阅服务账号。

使用以下命令指定自定义服务账号。

gcloud

$ gcloud compute tpus tpu-vm create tpu-name \
  --zone=us-central2-b \
  --accelerator-type=tpu-type \
  --version=tpu-vm-tf-2.17.0-pjrt \
  --service-account=your-service-account

curl

$ curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" -d "{accelerator_type: 'v4-8', \
runtime_version:'tpu-vm-tf-2.17.0-pjrt', \
network_config: {enable_external_ips: true}, \
shielded_instance_config: { enable_secure_boot: true }}" \
service_account: {email: 'your-service-account'} \
https://tpu.googleapis.com/v2/projects/project-id/locations/us-central2-b/nodes?node_id=node_name

启用自定义 SSH 方法

为 SSH 设置防火墙。

默认网络已预先配置为允许所有虚拟机进行 SSH 访问。如果您没有使用默认网络，或者您更改了默认网络则您可能需要通过添加防火墙规则：
```
$ gcloud compute tpus tpu-vm compute firewall-rules create \
  --network=network allow-ssh \
  --allow=tcp:22
```
使用 SSH 连接到 TPU 虚拟机。
```
$ gcloud compute tpus tpu-vm ssh tpu-name \
  --zone=us-central2-b \
  --project=project-id
```
必填字段
- tpu-name：TPU 虚拟机的名称。
- zone：您在其中创建了 TPU 虚拟机的区域。
- project-id：您的 Google Cloud 项目的名称。
有关可选字段的列表，请参阅 gcloud API 文档。