Visão geral do catálogo universal do Dataplex

O Dataplex Universal Catalog é uma solução unificada e inteligente de governança de dados que ajuda você a gerenciar, entender e usar seus recursos de dados na organização. Ao usar a IA, o Dataplex Universal Catalog simplifica o trabalho com dados distribuídos em vários sistemas, permitindo que você se concentre em insights valiosos.

Por exemplo, imagine uma empresa de varejo global que gera grandes quantidades de dados de vendas, inventário e clientes e os armazena no Cloud Storage, no Spanner e no Pub/Sub. Quando os dados são distribuídos entre sistemas dessa forma, pode ser complexo e demorado gerenciar a governança, garantir a qualidade e manter a conformidade. O Dataplex Universal Catalog simplifica a execução desses processos ao fornecer um catálogo de dados central para descobrir, criar perfis, validar, rastrear a linhagem e controlar o acesso aos ativos de dados organizacionais.

Este documento descreve os principais recursos do Dataplex Universal Catalog e destaca os principais casos de uso.

Recursos do Dataplex Universal Catalog

O Dataplex Universal Catalog controla os dados com os seguintes recursos:

  • Catalogação de metadados. Recupere metadados de recursos do Google Cloud (no BigQuery, Cloud SQL, Spanner, Vertex AI, Pub/Sub, Dataform, metastore do Dataproc) e recursos de terceiros que você traz para o Dataplex Universal Catalog para ter um catálogo de dados instantâneo.
  • Descoberta de dados. Faça uma verificação de dados estruturados e não estruturados em buckets do Cloud Storage para extrair e catalogar os metadados.
  • Insights de dados. Use a IA para gerar perguntas em linguagem natural sobre seus dados, descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.
  • Criação de perfil de dados. Identifique características comuns dos dados de coluna nas tabelas do BigQuery, por exemplo, valores de dados típicos, distribuição de dados e contagens nulas, que podem informar a classificação de dados e o controle de qualidade.
  • Qualidade dos dados. Defina e meça a qualidade dos dados nas tabelas do BigQuery validando os dados de acordo com as políticas organizacionais e registrando alertas se eles não atenderem aos critérios de qualidade.
  • Glossário empresarial. Gerencie a terminologia e as definições relacionadas aos negócios em toda a organização e anexe termos às colunas da tabela para promover uma compreensão consistente do uso de dados.
  • Linhagem de dados. Acompanhe como os dados se movimentam nos sistemas: de onde vêm, para onde vão e quais transformações são aplicadas a eles.

O Dataplex Universal Catalog oferece suporte a um ciclo de vida de dados completo, desde a descoberta distribuída até insights de negócios. Os recursos de governança também estão disponíveis no BigQuery.

Casos de uso

Com o Dataplex Universal Catalog, é possível:

  • Descobrir e entender seus dados. O Dataplex Universal Catalog oferece visibilidade dos seus recursos de dados em toda a organização. Ele permite encontrar recursos relevantes para necessidades de consumo de dados. Ele fornece contexto para recursos de dados, o que ajuda você a entender a adequação deles às necessidades do consumidor de dados.

  • Ative a governança e o gerenciamento de dados. O Dataplex Universal Catalog fornece metadados que podem informar e potencializar seus recursos de governança e gerenciamento de dados.

  • Crie um catálogo de dados central. O Dataplex Universal Catalog armazena e fornece acesso a metadados que são coletados automaticamente dos seus recursos do Google Cloud . É possível integrar seus próprios metadados de sistemas que não são doGoogle Cloud . É possível enriquecer todos os metadados com outras anotações de metadados comerciais e técnicos.

Primeiros passos

Se esta for a primeira vez que você trabalha com o Dataplex Universal Catalog, siga um guia de início rápido:

A seguir