Dataproc クラスタでマネージド ノートブック インスタンスを実行する
このページでは、Dataproc クラスタでマネージド ノートブック インスタンスのノートブック ファイルを実行する方法について説明します。
始める前に
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Notebooks and Dataproc APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Notebooks and Dataproc APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - まだ作成していない場合は、マネージド ノートブック インスタンスを作成します。
- プロジェクトに対する Dataproc ワーカー(
roles/dataproc.worker
) -
dataproc.clusters.use
権限のクラスタに対する Dataproc 編集者(roles/dataproc.editor
) -
dataproc.agents.create
-
dataproc.agents.delete
-
dataproc.agents.get
-
dataproc.agents.update
-
dataproc.tasks.lease
-
dataproc.tasks.listInvalidatedLeases
-
dataproc.tasks.reportStatus
-
dataproc.clusters.use
クラスタのコンポーネント ゲートウェイが有効になっている必要があります。
クラスタに Jupyter コンポーネントが必要です。
クラスタは、マネージド ノートブック インスタンスと同じリージョンに存在する必要があります。
REGION
: マネージド ノートブック インスタンスの Google Cloud ロケーションCLUSTER_NAME
: 新しいクラスタの名前。まだ作成していない場合は、Dataproc クラスタと同じリージョンにマネージド ノートブック インスタンスを作成します。
Google Cloud コンソールで、[マネージド ノートブック] ページに移動します。
マネージド ノートブック インスタンス名の横にある [Open JupyterLab] をクリックします。
マネージド ノートブック インスタンスの JupyterLab インターフェースで、[File] > [New] > [Notebook] の順に選択します。
Dataproc クラスタの使用可能なカーネルが [Select kernel] メニューに表示されます。使用するカーネルを選択して [Select] をクリックします。
新しいノートブック ファイルが開きます。
新しいノートブック ファイルにコードを追加し、コードを実行します。
マネージド ノートブック インスタンスの JupyterLab インターフェースで、[
File Browser] ボタンをクリックし、実行するノートブック ファイルに移動して開きます。[Select kernel] ダイアログを開くには、ノートブック ファイルのカーネル名(例: Python (Local))をクリックします。
Dataproc クラスタからカーネルを選択するには、末尾にクラスタ名を含むカーネル名を選択します。たとえば、
mycluster
という名前の Dataproc クラスタの PySpark カーネルは、PySpark on mycluster という名前になります。[Select] をクリックしてダイアログを閉じます。
これで、ノートブック ファイルのコードを Dataproc クラスタで実行できます。
- Dataproc の詳細を確認する。
必要なロール
Dataproc サーバーレス クラスタでノートブック ファイルを実行するために必要な権限がサービス アカウントに付与されるようにするには、サービス アカウントに次の IAM ロールを付与するように管理者に依頼してください。
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
これらの事前定義ロールには、Dataproc サーバーレス クラスタでノートブック ファイルを実行するために必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。
必要な権限
Dataproc サーバーレス クラスタでノートブック ファイルを実行するには、次の権限が必要です。
管理者は、サービス アカウントに、カスタムロールや他の事前定義ロールを付与することもできます。
Dataproc クラスタを作成する
マネージド ノートブック インスタンスのノートブック ファイルを Dataproc クラスタで実行するには、クラスタが次の条件を満たしている必要があります。
Dataproc クラスタを作成するには、Cloud Shell または Google Cloud CLI がインストールされている別の環境で、次のコマンドを入力します。
gcloud dataproc clusters create CLUSTER_NAME\ --region=REGION \ --enable-component-gateway \ --optional-components=JUPYTER
次のように置き換えます。
数分後、Dataproc クラスタを使用できるようになります。Dataproc クラスタの作成に関する詳細をご覧ください。
JupyterLab を開く
Dataproc クラスタでノートブック ファイルを実行する
同じプロジェクトとリージョン内のマネージド ノートブック インスタンスから Dataproc クラスタ内のノートブック ファイルを実行できます。
新しいノートブック ファイルを実行する
ノートブック ファイルの作成後に使用するカーネルを変更するには、次のセクションをご覧ください。