Descripción general del Catálogo universal de Dataplex

Dataplex Universal Catalog es una solución de administración de datos inteligente y unificada que te ayuda a administrar, comprender y usar tus recursos de datos en tu organización. Con la IA, Dataplex Universal Catalog simplifica el trabajo con datos distribuidos en varios sistemas, lo que te permite enfocarte en obtener estadísticas valiosas.

Por ejemplo, considera una empresa minorista global que genera grandes cantidades de datos de ventas, inventario y clientes, y los almacena en Cloud Storage, Spanner y Pub/Sub. Cuando los datos se distribuyen entre los sistemas de esta manera, puede ser complejo y llevar mucho tiempo administrar la gobernanza, garantizar la calidad y mantener el cumplimiento. Dataplex Universal Catalog simplifica la realización de estos procesos, ya que proporciona un catálogo de datos central para descubrir, generar perfiles, validar, hacer un seguimiento del linaje y controlar el acceso a los recursos de datos de la organización.

En este documento, se describen las funciones principales de Dataplex Universal Catalog y se destacan los casos de uso clave.

Funciones de Dataplex Universal Catalog

Dataplex Universal Catalog administra los datos a través de las siguientes funciones:

  • Categorización de metadatos. Recupera metadatos para los recursos Google Cloud (en BigQuery, Cloud SQL, Spanner, Vertex AI, Pub/Sub, Dataform y Dataproc Metastore), así como los recursos de terceros que importes a Dataplex Universal Catalog, para obtener un catálogo de datos instantáneo.
  • Descubrimiento de datos. Analiza los datos estructurados y no estructurados en los buckets de Cloud Storage para extraer y catalogar sus metadatos.
  • Estadísticas de datos. Usar la IA para generar preguntas en lenguaje natural sobre tus datos, descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos
  • Creación de perfiles de datos. Identificar características comunes de los datos de las columnas en tus tablas de BigQuery, por ejemplo, valores de datos típicos, distribución de datos y recuentos de nulos, que pueden informar la clasificación de datos y el control de calidad
  • Calidad de los datos. Define y mide la calidad de los datos en tus tablas de BigQuery validando los datos según las políticas de la organización y registrando alertas si los datos no cumplen con los criterios de calidad.
  • Glosario empresarial. Administra la terminología y las definiciones relacionadas con la empresa en toda tu organización, y adjunta términos a las columnas de la tabla para promover una comprensión coherente del uso de los datos.
  • Linaje de datos. Hacer un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se aplican a ellos

Dataplex Universal Catalog admite un ciclo de vida de los datos de extremo a extremo, desde el descubrimiento distribuido hasta las estadísticas empresariales. Las funciones de administración también están disponibles a través de BigQuery.

Casos de uso

Puedes usar Dataplex Universal Catalog para realizar las siguientes acciones:

  • Descubre y comprende tus datos. Dataplex Universal Catalog proporciona visibilidad de tus recursos de datos en toda la organización. Te permite encontrar recursos relevantes para las necesidades de consumo de datos. Proporciona contexto para los recursos de datos, lo que te ayuda a comprender la idoneidad de los recursos de datos para las necesidades de tu consumidor de datos.

  • Habilita la administración y el control de datos. Dataplex Universal Catalog proporciona metadatos que pueden informar y potenciar tus capacidades de administración y control de datos.

  • Crea un catálogo de datos central. Dataplex Universal Catalog almacena y proporciona acceso a los metadatos que se recopilan automáticamente de tus recursos de Google Cloud . Puedes integrar tus propios metadatos desde sistemas que no sean deGoogle Cloud . Puedes enriquecer todos los metadatos con anotaciones adicionales de metadatos técnicos y comerciales.

Comenzar

Si es la primera vez que trabajas con Dataplex Universal Catalog, considera seguir una guía de inicio rápido:

¿Qué sigue?