Crie um data pipeline

Este início rápido mostra como fazer o seguinte:

  1. Crie uma instância do Cloud Data Fusion.
  2. Implemente um pipeline de exemplo fornecido com a sua instância do Cloud Data Fusion. O pipeline faz o seguinte:
    1. Lê um ficheiro JSON que contém dados de bestsellers do NYT do Cloud Storage.
    2. Executa transformações no ficheiro para analisar e limpar os dados.
    3. Carrega os livros com melhor classificação adicionados na última semana que custam menos de 25 € no BigQuery.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Enable the Cloud Data Fusion API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Enable the Cloud Data Fusion API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  6. Crie uma instância do Cloud Data Fusion

    1. Clique em Criar uma instância.

      Aceda a Instâncias

    2. Introduza um Nome da instância.
    3. Introduza uma Descrição para a sua instância.
    4. Introduza a região na qual criar a instância.
    5. Escolha a versão do Cloud Data Fusion a usar.
    6. Escolha a edição do Cloud Data Fusion.
    7. Para as versões 6.2.3 e posteriores do Cloud Data Fusion, no campo Autorização, escolha a conta de serviço do Dataproc a usar para executar o seu pipeline do Cloud Data Fusion no Dataproc. O valor predefinido, conta do Compute Engine, está pré-selecionado.
    8. Clique em Criar. O processo de criação da instância demora até 30 minutos a ser concluído. Enquanto o Cloud Data Fusion cria a sua instância, é apresentado um indicador de progresso junto ao nome da instância na página Instâncias. Após a conclusão, transforma-se numa marca de verificação verde e indica que pode começar a usar a instância.

    Quando usa o Cloud Data Fusion, usa a Google Cloud consola e a interface Web do Cloud Data Fusion separada.

    • Na Google Cloud consola, pode fazer o seguinte:

      • Crie um Google Cloud projeto da consola
      • Crie e elimine instâncias do Cloud Data Fusion
      • Veja os detalhes da instância do Cloud Data Fusion
    • Na interface Web do Cloud Data Fusion, pode usar várias páginas, como o Studio ou o Wrangler, para usar a funcionalidade do Cloud Data Fusion.

    Para navegar na interface do Cloud Data Fusion, siga estes passos:

    1. Na Google Cloud consola, abra a página Instâncias.

      Aceda a Instâncias

    2. Na coluna Ações da instância, clique no link Ver instância.
    3. Na interface Web do Cloud Data Fusion, use o painel de navegação do lado esquerdo para navegar para a página de que precisa.

    Implemente uma pipeline de amostra

    Os pipelines de exemplo estão disponíveis através do Hub do Cloud Data Fusion, que lhe permite partilhar pipelines, plug-ins e soluções reutilizáveis do Cloud Data Fusion.

    1. Na interface Web do Cloud Data Fusion, clique em Hub.
    2. No painel do lado esquerdo, clique em Pipelines.
    3. Clique no pipeline Início rápido do Cloud Data Fusion.
    4. Clique em Criar.
    5. No painel de configuração do início rápido do Cloud Data Fusion, clique em Concluir.
    6. Clique em Personalizar pipeline.

      É apresentada uma representação visual do seu pipeline na página Studio, que é uma interface gráfica para desenvolver pipelines de integração de dados. Os plug-ins de pipeline disponíveis são apresentados à esquerda e o seu pipeline é apresentado na área de tela principal. Pode explorar o seu pipeline mantendo o ponteiro sobre cada do pipeline e clicando em Propriedades. O menu de propriedades de cada nó permite-lhe ver os objetos e as operações associados ao nó.

    7. No menu do canto superior direito, clique em Implementar. Este passo envia o pipeline para o Cloud Data Fusion. Vai executar o pipeline na secção seguinte deste início rápido.

    Implemente o pipeline

    Veja o seu pipeline

    O pipeline implementado é apresentado na vista de detalhes do pipeline, onde pode fazer o seguinte:

    • Ver a estrutura e a configuração do pipeline.
    • Executar o pipeline manualmente ou configurar um horário ou um acionador.
    • Veja um resumo das execuções históricas do pipeline, incluindo os tempos de execução, os registos e as métricas.

    Copie a conta de serviço

    Execute o seu pipeline

    Na vista de detalhes do pipeline, clique em Executar para executar o pipeline.

    Execute a pipeline

    Quando executa um pipeline, o Cloud Data Fusion faz o seguinte:

    1. Aprovisiona um cluster do Dataproc efémero
    2. Executa o pipeline no cluster através do Apache Spark
    3. Elimina o cluster

    Veja os resultados

    Após alguns minutos, o pipeline termina. O estado do pipeline muda para Concluído e é apresentado o número de registos processados por cada nó.

    Execução da pipeline concluída

    1. Aceda à interface Web do BigQuery.
    2. Para ver uma amostra dos resultados, aceda ao conjunto de dados DataFusionQuickstart no seu projeto, clique na tabela top_rated_inexpensive e, de seguida, execute uma consulta simples. Por exemplo:

      SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
      

      Substitua PROJECT_ID pelo ID do seu projeto.

    Ver resultados

    Limpar

    Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.

    1. Elimine o conjunto de dados do BigQuery no qual a sua pipeline escreveu neste início rápido.
    2. Elimine a instância do Cloud Data Fusion.

    3. Opcional: elimine o projeto.

    1. In the Google Cloud console, go to the Manage resources page.

      Go to Manage resources

    2. In the project list, select the project that you want to delete, and then click Delete.
    3. In the dialog, type the project ID, and then click Shut down to delete the project.

    O que se segue?

    • Trabalhe num tutorial do Cloud Data Fusion
    • Saiba mais sobre os conceitos do Cloud Data Fusion