Acerca del linaje de datos

El linaje de datos te ayuda a monitorizar cómo se mueven los datos por tus sistemas. Puede ver el origen, los destinos y las transformaciones aplicadas a un recurso de datos.

Puede ver la información de linaje en la consola de Google Cloud para los recursos de Dataplex Universal Catalog, BigQuery y Vertex AI, o bien puede obtenerla mediante la API Data Lineage.

Por qué necesitas el linaje de los datos

Los conjuntos de datos de gran tamaño suelen requerir la transformación de los datos en varios formatos para proyectos específicos, como archivos de texto, tablas, informes, paneles de control y modelos.

Por ejemplo, una tienda online podría tener una canalización de datos con el siguiente flujo:

  1. Una tarea de Dataflow lee eventos de compra sin procesar de un tema de Pub/Sub, detalles de productos de archivos de Cloud Storage e información de clientes de una tabla de BigQuery. La tarea combina esta información y crea una tabla purchases en BigQuery.

  2. Las tareas posteriores de BigQuery transforman la tabla purchases para crear tablas agregadas más pequeñas, como region o brand, y calcular nuevas columnas, como total_profit.

  3. Los analistas usan estas tablas para generar informes y paneles de control en Looker.

Esta situación habitual puede plantear varios problemas:

  • Los consumidores de datos no tienen un método de autoservicio para verificar si los datos proceden de una fuente autorizada.

  • Los ingenieros de datos tienen dificultades para encontrar la causa raíz de los problemas porque no pueden hacer un seguimiento fiable de todas las transformaciones de datos. Por ejemplo, si un analista encuentra un error en una columna total_profit, es difícil rastrearlo hasta su origen.

  • Los ingenieros y analistas de datos no pueden evaluar por completo el posible impacto de modificar o eliminar tablas. Por ejemplo, antes de retirar una columna product_id, deben identificar todas las columnas dependientes para evitar que los informes dejen de funcionar.

  • Los responsables de los datos no saben cómo se usan los datos sensibles en toda la organización, lo que dificulta el cumplimiento de los requisitos normativos.

El linaje de datos resuelve estos problemas proporcionando un mapa visual claro del recorrido de sus datos. Con el linaje de datos, puede hacer lo siguiente:

  • Descubre cómo se extraen y se transforman los datos mediante gráficos de linaje.

  • Rastrear los errores de las entradas de datos y las operaciones hasta sus causas principales.

  • Mejora la gestión de cambios mediante el análisis del impacto para evitar tiempos de inactividad o errores inesperados, comprender las dependencias y colaborar con las partes interesadas.

Flujo de trabajo de linaje de datos

El flujo de trabajo de linaje de datos incluye los siguientes pasos:

  1. Fuentes de datos e ingestión: la información de linaje de tus fuentes de datos inicia todo el proceso. Para obtener más información, consulta Fuentes de linaje.

    • Google Cloud Servicios: cuando la API Data Lineage está habilitada, los servicios compatibles, como BigQuery y Dataflow, registran automáticamente eventos de linaje cada vez que se mueven o transforman datos.

    • Fuentes personalizadas: en el caso de los sistemas que no sean compatibles automáticamente con lasGoogle Cloud integraciones, puedes usar la API Data Lineage para registrar manualmente la información de linaje. Le recomendamos que importe los eventos con el formato del estándar OpenLineage.

  2. Plataforma de linaje: esta plataforma central ingiere, modeliza y almacena todos los datos de linaje. Para obtener más información, consulta el artículo Modelo de información y granularidad del linaje.

    • API Data Lineage: esta API actúa como punto de entrada único para toda la información de linaje entrante. Utiliza un modelo de datos jerárquico que consta de tres conceptos principales: proceso, ejecución y evento.

    • Procesamiento y almacenamiento: la plataforma procesa los datos entrantes y los almacena en bases de datos fiables y optimizadas para consultas.

  3. Experiencia de usuario: puedes interactuar con la información de linaje almacenada de dos formas principales:

    • Exploración visual: en la Google Cloud consola, un servicio frontend obtiene y representa los datos de linaje como un gráfico o una lista interactivos. Esta función es compatible con Universal Catalog de Dataplex, BigQuery y Vertex AI (para modelos, conjuntos de datos, vistas de almacén de características y grupos de características). Es ideal para explorar visualmente el recorrido de tus datos. Para obtener más información, consulta Vistas de linaje en la consola de Google Cloud .

    • Acceso programático: mediante un cliente de la API, puedes comunicarte directamente con la API Data Lineage para automatizar la gestión del linaje. Esto te permite escribir información de linaje de fuentes personalizadas. También te permite leer y consultar los datos de linaje almacenados para usarlos en otras aplicaciones o para crear informes personalizados.

Fuentes de linaje

Puedes rellenar la información de linaje en Dataplex Universal Catalog de las siguientes formas:

  • Automáticamente desde servicios Google Cloud integrados
  • Manualmente, mediante la API Data Lineage para fuentes personalizadas
  • Importando eventos de OpenLineage

Seguimiento automatizado del linaje de datos

Cuando habilitas la API Data Lineage, Google Cloud los sistemas que admiten el linaje de datos empiezan a registrar sus movimientos de datos. Cada sistema integrado puede enviar información de linaje de un intervalo diferente de fuentes de datos.

BigQuery

Cuando habilitas el linaje de datos en tu proyecto de BigQuery, Dataplex Universal Catalog registra automáticamente la información del linaje de lo siguiente:

Las tareas de copia, consulta y carga de BigQuery se representan como procesos.

Para ver los detalles del proceso, en el gráfico de linaje, haz clic en .

Cada proceso contiene el job_id de BigQuery en la lista attributes del trabajo de BigQuery más reciente.

Otros servicios

El linaje de datos admite la integración con los siguientes servicios:Google Cloud

Linaje de datos de fuentes de datos personalizadas

Puede usar la API Data Lineage para registrar manualmente información de linaje de cualquier fuente de datos que no sea compatible con los sistemas integrados.

Dataplex Universal Catalog puede crear gráficos de linaje para el linaje registrado manualmente si usas un fullyQualifiedName que coincida con los nombres completos de las entradas de Dataplex Universal Catalog. Si quieres registrar el linaje de una fuente de datos personalizada, primero debes crear una entrada personalizada.

Cada proceso de una fuente de datos personalizada puede contener una clave sql en la lista de atributos. El valor de esta clave se usa para renderizar un fragmento de código en el panel de detalles del gráfico de linaje de datos. La instrucción SQL se muestra tal como se ha proporcionado. Eres responsable de filtrar la información sensible. En el nombre de la clave sql se distingue entre mayúsculas y minúsculas.

OpenLineage

Si ya usa OpenLineage para recoger información de linaje de otras fuentes de datos, puede importar eventos de OpenLineage a Data Catalog y verlos en la consola. Google Cloud Para obtener más información, consulta Integrar con OpenLineage.

Limitaciones

Estas son las limitaciones de la procedencia de los datos:

  • Toda la información de linaje se conserva en el sistema durante 30 días.

  • La información de linaje se conserva después de eliminar la fuente de datos relacionada. Por ejemplo, si eliminas una tabla de BigQuery, puedes ver su linaje a través de la API y de la consola durante un máximo de 30 días.

Limitaciones del linaje a nivel de columna

El linaje a nivel de columna tiene las siguientes limitaciones adicionales:

  • El linaje a nivel de columna no se recoge en las tareas de carga de BigQuery ni en las rutinas.

  • El linaje a nivel de columna de las tablas externas no se recoge.

  • El linaje a nivel de columna no se recoge si un trabajo crea más de 1500 enlaces a nivel de columna. En estos casos, solo se recoge el linaje a nivel de tabla.

  • No hay ninguna API para crear, leer, actualizar, eliminar o buscar linaje a nivel de columna.

  • La compatibilidad con las tablas con particiones es limitada, ya que las columnas de partición como _PARTITIONDATE y _PARTITIONTIME no se reconocen en el gráfico de linaje.

  • Limitaciones de la consola:

    • El recorrido del gráfico de linaje está limitado a una profundidad de 20 niveles y a 10.000 enlaces en cada dirección.

    • El linaje a nivel de columna solo se obtiene de la región en la que se encuentra la tabla raíz. No se admite el linaje entre regiones en la vista de gráfico.

Precios

  • Dataplex Universal Catalog usa la SKU de procesamiento premium para cobrar por el linaje de datos. Para obtener más información, consulta los precios.

  • Para separar los cargos de linaje de datos de otros cargos en el SKU de procesamiento premium del catálogo universal de Dataplex, en el informe de facturación de Cloud, utilice la etiqueta goog-dataplex-workload-type con el valor LINEAGE.

  • Si llamas a la API Data Lineage Origin sourceType con un valor distinto de CUSTOM, se aplican costes adicionales.

Siguientes pasos