Crie um cluster do Dataproc
Requisitos:
Nome: o nome do cluster tem de começar com uma letra minúscula seguida de até 51 letras minúsculas, números e hífenes, e não pode terminar com um hífen.
Região do cluster: tem de especificar uma região do Compute Engine para o cluster, como
us-east1
oueurope-west1
, para isolar os recursos do cluster, como instâncias de VMs e metadados do cluster armazenados no Cloud Storage, na região.- Consulte os pontos finais regionais para mais informações sobre os pontos finais regionais.
- Consulte as regiões e zonas disponíveis
para obter informações sobre como selecionar uma região. Também pode executar o comando
gcloud compute regions list
para apresentar uma lista das regiões disponíveis.
Conetividade: as instâncias de máquinas virtuais do Compute Engine (VMs) num cluster do Dataproc, que consiste em VMs principais e de trabalho, requerem conetividade cruzada de rede IP interna total. A
default
rede VPC fornece esta conetividade (consulte a configuração de rede do cluster do Dataproc).
gcloud
Para criar um cluster do Dataproc na linha de comandos, execute o comando gcloud dataproc clusters create localmente numa janela de terminal ou no Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
O comando cria um cluster com as predefinições do serviço Dataproc para as instâncias de máquinas virtuais principais e de trabalho, os tamanhos e os tipos de discos, o tipo de rede, a região e a zona onde o cluster é implementado, bem como outras definições do cluster. Consulte o comando gcloud dataproc clusters create para obter informações sobre a utilização de flags da linha de comandos para personalizar as definições do cluster.
Crie um cluster com um ficheiro YAML
- Execute o seguinte comando
gcloud
para exportar a configuração de um cluster do Dataproc existente para um ficheirocluster.yaml
.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Crie um novo cluster importando a configuração do ficheiro YAML.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
Nota: durante a operação de exportação, os campos específicos do cluster, como o nome do cluster, os campos só de saída e as etiquetas aplicadas automaticamente, são filtrados. Estes campos não são permitidos no ficheiro YAML importado usado para criar um cluster.
REST
Esta secção mostra como criar um cluster com os valores necessários e a configuração predefinida (1 mestre, 2 trabalhadores).
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
- CLUSTER_NAME: nome do cluster
- PROJECT: Google Cloud ID do projeto
- REGION: uma região do Compute Engine disponível onde o cluster vai ser criado.
- ZONE: Uma zona opcional na região selecionada onde o cluster vai ser criado.
Método HTTP e URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
Corpo JSON do pedido:
{ "project_id":"PROJECT", "cluster_name":"CLUSTER_NAME", "config":{ "master_config":{ "num_instances":1, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "softwareConfig": { "imageVersion": "", "properties": {}, "optionalComponents": [] }, "worker_config":{ "num_instances":2, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "gce_cluster_config":{ "zone_uri":"ZONE" } } }
Para enviar o seu pedido, expanda uma destas opções:
Deve receber uma resposta JSON semelhante à seguinte:
{ "name": "projects/PROJECT/regions/REGION/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "CLUSTER_NAME", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
Consola
Abra a página do Dataproc Criar um cluster na Google Cloud consola no seu navegador e, de seguida, clique em Criar no cluster na linha Compute Engine na página Crie um cluster do Dataproc no Compute Engine. O painel Configurar cluster está selecionado com os campos preenchidos com valores predefinidos. Pode selecionar cada painel e confirmar ou alterar os valores predefinidos para personalizar o cluster.
Clique em Criar para criar o cluster. O nome do cluster aparece na página Clusters e o respetivo estado é atualizado para Em execução após o cluster ser aprovisionado. Clique no nome do cluster para abrir a página de detalhes do cluster, onde pode examinar tarefas, instâncias e definições de configuração do cluster, bem como estabelecer ligação a interfaces Web em execução no cluster.
Go
- Instale a biblioteca cliente.
- Configure as Credenciais padrão da aplicação.
- Execute o código.
Java
- Instale a biblioteca cliente.
- Configure as Credenciais padrão da aplicação.
- Execute o código.
Node.js
- Instale a biblioteca cliente.
- Configure as Credenciais padrão da aplicação.
- Execute o código.
Python
- Instale a biblioteca cliente.
- Configure as Credenciais padrão da aplicação.
- Execute o código.