Dataproc プリンシパル

Dataproc サービスを使用してクラスタを作成し、クラスタでジョブを実行すると、サービスはプロジェクトで必要な Dataproc ロールと権限を設定し、タスクの完了に必要な Google Cloud リソースにアクセスして使用します。ただし、複数のプロジェクトにわたって作業（たとえば、別のプロジェクトのデータにアクセスするなど）を行う場合、プロジェクトをまたぐリソースにアクセスするための役割と権限を設定する必要があります。

複数のプロジェクトにわたる作業の実現に役立つように、このドキュメントでは、Dataproc サービスを使用するプリンシパルと、Google Cloud リソースにアクセスして使用するためにプリンシパルが必要とする権限を持つロールを示します。

Dataproc にアクセスして使用するプリンシパル（ID）は 3 つあります。

ユーザー ID
コントロールプレーン ID
データプレーン ID

Dataproc API ユーザー（ユーザー ID）

例: [email protected]

これは、Dataproc サービスを呼び出してクラスタの作成、ジョブの送信、サービスに対する他のリクエストを行うユーザーです。通常、ユーザーは個人ですが、API クライアントや別の Google Cloud サービス（Compute Engine、Cloud Run functions、Cloud Composer など）から Dataproc を呼び出す場合にはサービスアカウントにすることもできます。

関連するロール

Dataproc のロール、プロジェクトのロール

注

Dataproc API が送信するジョブは、Linux で root として実行されます。
クラスタの作成時に --metadata=block-project-ssh-keys=true を設定して明示的にブロックしない限り、Dataproc クラスタはプロジェクト全体で Compute Engine SSH メタデータを継承します（クラスタメタデータを参照してください）。
プロジェクトレベルの SSH ユーザーごとに HDFS ユーザーディレクトリが作成されます。これらの HDFS ディレクトリはクラスタのデプロイ時に作成され、新しい（デプロイ後の）SSH ユーザーには、既存のクラスタの HDFS ディレクトリは指定されません。

Dataproc サービスエージェント（コントロールプレーン ID）

例: service-project-number@dataproc-accounts.iam.gserviceaccount.com

Dataproc の Dataproc サービスエージェントサービスアカウントは、Dataproc クラスタが作成されたプロジェクト内のリソースに対して、幅広いシステムオペレーションを実行するために使用され、以下が含まれます：

VM インスタンス、インスタンスグループ、インスタンステンプレートなどの Compute Engine リソースの作成
イメージ、ファイアウォール、Dataproc 初期化アクション、Cloud Storage バケットなどのリソースの構成を確認する get と list のオペレーション
Dataproc ステージングバケットと一時バケットの自動作成（ユーザーによってステージングバケットまたは一時バケットが指定されていない場合）
ステージングバケットへのクラスタ構成メタデータの書き込み
ホストプロジェクトの VPC ネットワークへのアクセス

関連するロール

Dataproc サービスエージェント

Dataproc VM サービスアカウント（データプレーン ID）

例: project-number[email protected]

アプリケーションコードは、Dataproc VM で VM サービスアカウントとして実行されます。ユーザージョブには、このサービスアカウントのロール（および関連付けられている権限）が付与されます。

VM サービスアカウントは:

Dataproc コントロールプレーンと通信する
Dataproc ステージングバケットと一時バケットとの間でデータの読み取りと書き込みを行う
Dataproc ジョブで必要な場合は、Cloud Storage、BigQuery、Cloud Logging、その他の Google Cloud リソースとの間でデータの読み取りと書き込みを行う。

関連するロール

Dataproc プリンシパル

Dataproc API ユーザー（ユーザー ID）

Dataproc サービス エージェント（コントロール プレーン ID）

Dataproc VM サービス アカウント（データプレーン ID）

自然言語処理についてや、

Dataproc サービスエージェント（コントロールプレーン ID）

Dataproc VM サービスアカウント（データプレーン ID）