Informazioni sulla visualizzazione della derivazione

La derivazione dei dati ti aiuta a capire come i dati si spostano nei tuoi sistemi monitorando le relazioni tra gli asset di dati e i processi che li trasformano. Puoi visualizzare queste informazioni sulla derivazione come grafici ed elenchi nella console Google Cloud .

Questo documento fornisce una panoramica del modello di informazioni sulla derivazione dei dati, dettagli sulla granularità della derivazione a livello di tabella e colonna e istruzioni sull'utilizzo delle visualizzazioni a grafico e elenco per esplorare la derivazione dei dati.

Modello di informazioni sulla derivazione dei dati

La derivazione è un record dei dati trasformati dalle origini alle destinazioni. L'API Data Lineage raccoglie queste informazioni e le organizza in un modello dei dati gerarchico che utilizza i concetti di processi, esecuzioni ed eventi.

  • Processo: una definizione di trasformazione dei dati.
  • Esecuzione: l'esecuzione di un processo.
  • Evento: un record dello spostamento dei dati durante un'esecuzione.

Processo

Un processo è la definizione di un'operazione di trasformazione dei dati per un sistema specifico. Per la derivazione di BigQuery, un processo è un job di un tipo di job supportato. Tutte le esecuzioni della stessa query SQL sono collegate a un singolo processo, il che ti consente di monitorare ogni istanza in cui viene utilizzata una logica di trasformazione specifica.

Ad esempio, la seguente query SQL è un processo. Questa query crea una tabella contando il numero totale di viaggi per ogni fornitore da due tabelle di origine.

  CREATE TABLE `dataplex-docs.data_lineage_demo.total_green_trips_22_21`
  AS
  SELECT
      vendor_id,
      COUNT(*) AS number_of_trips
  FROM
      (
          SELECT vendor_id
          FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2022`
          UNION ALL
          SELECT vendor_id
          FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2021`
      )
  GROUP BY
      vendor_id;

Il formato del nome della risorsa REST per un processo è projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID.

Ad esempio: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6

Per saperne di più sulla risorsa process, consulta il riferimento alla risorsa Process.

Esegui

Per esecuzione si intende la singola esecuzione di un processo. I processi possono avere più esecuzioni.

Ogni esecuzione è un'operazione unica caratterizzata da un startTime, un endTime e uno stato finale, ad esempio COMPLETED, FAILED o ABORTED.

Ad esempio, l'esecuzione della query SQL dalla sezione Processo alle 9:00 crea un'esecuzione specifica. L'esecuzione della stessa query alle 10:00 crea una nuova esecuzione distinta. Entrambe le esecuzioni sono collegate allo stesso processo principale.

Il formato del nome della risorsa REST per un'esecuzione mostra che è una risorsa secondaria di un processo: projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID/runs/RUN_ID.

Ad esempio: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6/runs/83dd03a51cd2ac80f465c9e267a950b1

Per saperne di più sulla risorsa run, consulta il riferimento alla risorsa di esecuzione.

Evento

Un evento rappresenta un punto nel tempo in cui una trasformazione dei dati sposta i dati tra un'entità di origine e una di destinazione. Un evento è un record granulare di un movimento di dati specifico che collega le tabelle di origine e di destinazione per una esecuzione specifica. Un evento può avere anche più origini e destinazioni.

Ad esempio, se l'esecuzione esegue la query SQL descritta nella sezione Procedura, un evento di lineage registra che le tabelle di origine nyc_green_trips_2021 e nyc_green_trips_2022 vengono utilizzate per creare la tabella di destinazione total_green_trips_22_21.

Un evento di derivazione contiene un elenco di link che definiscono l'origine e la destinazione. Gli eventi vengono utilizzati per creare grafici di derivazione. Sebbene la console Google Cloud presenti questi grafici di derivazione, non mostra direttamente i singoli eventi. Puoi creare, leggere ed eliminare, ma non aggiornare gli eventi utilizzando l'API Data Lineage.

Ogni collegamento all'interno di un evento definisce un singolo percorso di flusso di dati da un'entità di origine a un'entità di destinazione. Un'entità è un riferimento a un asset di dati, ad esempio una tabella BigQuery, ed è identificata dal suo nome completo (FQN). Un singolo evento può contenere più link, il che è comune in operazioni come le unioni di tabelle in cui più origini contribuiscono a una destinazione.

Per informazioni dettagliate su come gli eventi supportano la derivazione a livello di colonna, vedi Derivazione a livello di colonna.

Granularità della derivazione

La derivazione dei dati consente di tracciare l'origine e il percorso di trasformazione dei dati a livello di tabella e colonna.

Derivazione a livello di tabella

La derivazione a livello di tabella fornisce una panoramica generale delle pipeline di dati mostrando le relazioni tra intere tabelle. Utilizza la derivazione a livello di tabella per attività a livello macro come le seguenti:

  • Rilevamento dei dati. Un analista che crea una nuova dashboard può utilizzare la derivazione a livello di tabella per risalire alle origini di una tabella riepilogativa e confermare che i dati provengono da un database autorevole.

  • Pianificazione della migrazione. Un amministratore di database che prevede di eseguire la migrazione di un database principale può utilizzare la derivazione a livello di tabella per identificare ogni report e dashboard downstream che dipende da esso.

  • Controllo e governance. Un responsabile della governance dei dati può utilizzare la derivazione a livello di tabella e di colonna per verificare il flusso dei dati di una tabella contenente informazioni che consentono l'identificazione personale (PII) in una pipeline.

Derivazione a livello di colonna

La derivazione a livello di colonna fornisce una visualizzazione più granulare monitorando il flusso di dati tra le singole colonne. In questa visualizzazione, i link all'interno di un evento di lignaggio rappresentano la relazione tra una colonna di origine e una colonna target. Ciascuno di questi link a livello di colonna ha un tipo di dipendenza che descrive la trasformazione:

  • Exact copy: i valori vengono copiati tra le colonne.

  • Other: altri tipi di dipendenze tra le colonne.

Utilizza la derivazione a livello di colonna per attività come le seguenti:

  • Analisi delle cause principali. Se un analista dei dati trova un valore errato in una colonna, può utilizzare la derivazione a livello di colonna per risalire alle colonne di origine e trovare la causa principale.

  • Analisi d'impatto. Prima di ritirare una colonna, un data engineer può utilizzare la derivazione a livello di colonna per trovare ogni colonna downstream che dipende da essa.

  • Verifica dell'origine dati per le metriche. Un analista di dati può utilizzare la derivazione a livello di colonna per identificare le colonne di origine utilizzate per calcolare una metrica senza decifrare una query SQL complessa.

La derivazione a livello di colonna viene raccolta automaticamente per i seguenti tipi di job BigQuery:

Visualizzazioni della derivazione nella console Google Cloud

La derivazione dei dati nella console Google Cloud ti consente di interagire con le informazioni sulla derivazione in due modi: puoi esplorare il grafico della derivazione in più regioni disponibili oppure puoi utilizzare il riquadro Esplora derivazione per ottenere una visualizzazione più mirata all'interno di una regione specifica. Puoi anche passare dalla visualizzazione Grafico alla visualizzazione Elenco per analizzare il flusso di dati a diversi livelli di dettaglio.

Le visualizzazioni della derivazione sono disponibili solo per le voci di Dataplex Universal Catalog, gli asset BigQuery e le risorse Vertex AI (modelli, set di dati, visualizzazioni dello store delle funzionalità e gruppi di funzionalità).

Per visualizzare le diverse visualizzazioni descritte in questa pagina, consulta Utilizzare la derivazione dei dati con i sistemi Google Cloud .

Visualizzazione del grafico di derivazione

La visualizzazione Grafico mostra il flusso e le relazioni degli asset di dati tra sistemi e regioni, aiutandoti a comprendere l'architettura dei dati, tracciare le origini e le destinazioni e identificare i pattern. Questi grafici di derivazione, generati dal servizio API Data Lineage per una voce specifica del catalogo universale Dataplex, mostrano come i dati vengono trasformati nel tempo, visualizzando i flussi a monte, a valle o entrambi da una voce radice selezionata.

L'API Data Lineage riceve automaticamente le informazioni sugli asset dai sistemi supportati e tramite chiamate API per le origini personalizzate.

Gli elementi chiave del grafico sono descritti come segue:

  • Nodi. Rappresentano le entità di dati. In una visualizzazione a livello di tabella, un nodo mostra il nome della tabella e le relative colonne. In una visualizzazione a livello di colonna, ogni nodo rappresenta una tabella e una colonna specifiche.

  • Bordi. Le linee che collegano i nodi e rappresentano i processi che si verificano tra loro. L'aspetto di un bordo dipende dalla visualizzazione della derivazione:

    • Nella visualizzazione a livello di tabella, i bordi hanno icone che indicano le trasformazioni dei dati.
    • Nella visualizzazione a livello di colonna, i bordi hanno etichette che indicano le trasformazioni dei dati. Ad esempio, un'etichetta del bordo potrebbe indicare Exact copy per descrivere come una colonna di origine è stata copiata in una colonna di destinazione.
  • Icone ed etichette di processo. Appaiono sui bordi per fornire maggiori informazioni sulla trasformazione.

    • Icone. Rappresentano il processo di trasformazione. Quando esplori manualmente il grafico, le icone sui bordi rappresentano il sistema di origine del processo (ad esempio BigQuery o Vertex AI). Se sono coinvolti più processi, viene visualizzata un'icona "Più processi". Se il sistema di origine del processo è sconosciuto, viene utilizzata un'icona a forma di ingranaggio. Quando applichi i filtri, viene utilizzata un'icona a forma di ingranaggio per tutti i processi.
    • Etichette. Nella visualizzazione della derivazione a livello di colonna, un'etichetta descrive il tipo di dipendenza tra le colonne: Exact copy o Other.

Esplorare manualmente il grafico della derivazione

Quando apri la scheda Lignaggio, viene visualizzata la visualizzazione predefinita Grafico. La visualizzazione predefinita fornisce una panoramica generale di sistemi e regioni, con un'espansione manuale e incrementale del grafico che può caricare cinque nodi alla volta. Le icone dei processi sui bordi rappresentano il sistema di origine o indicano più processi.

Una visualizzazione predefinita del grafico di derivazione che mostra gli asset di dati interconnessi.
Visualizzazione predefinita del grafico della derivazione

Applicare filtri per una visualizzazione della derivazione mirata

Per filtrare i dati di derivazione per un'analisi mirata all'interno di una regione specifica, utilizza il riquadro Esplora derivazione. Ecco alcuni criteri che puoi utilizzare per passare a una visualizzazione mirata:

  • Nome colonna: filtra la derivazione in base al nome della colonna per visualizzare i dettagli a livello di colonna.
  • Direzione: mostra la derivazione a monte o a valle oppure entrambe.
  • Intervallo di tempo: filtra la derivazione in base a un'ora di inizio o di fine specifica.
  • Tipo di dipendenza: filtra la derivazione a livello di colonna in base al tipo di dipendenza. Esempi di opzioni disponibili includono All o Exact copy.
Il riquadro dell'esploratore della derivazione che mostra i filtri per la derivazione a livello di colonna, la direzione e l'intervallo di tempo.
Riquadro di Esplora derivazioni

La visualizzazione mirata espande automaticamente il grafico fino a tre livelli, caricando tutta la derivazione corrispondente ai criteri di filtro. Supporta la derivazione a livello di tabella e di colonna, inclusa la visualizzazione del percorso da qualsiasi nodo selezionato fino alla radice. In questa visualizzazione mirata, viene utilizzata un'icona a forma di ingranaggio generica per tutti i processi.

Una visualizzazione del grafico di derivazione focalizzata che mostra gli asset di dati filtrati.
Visualizzazione del grafico della derivazione a livello di tabella mirata

Per visualizzare la derivazione a livello di colonna, puoi seguire uno dei seguenti metodi:

  • In una visualizzazione Grafico mirata, fai clic sull'icona della colonna in una tabella per passare alla derivazione a livello di colonna.

    Icona utilizzata per passare alla derivazione a livello di colonna.
    Icona della colonna
  • Nella visualizzazione Grafico predefinita o in quella Grafico focalizzata, applica un nome di colonna nel riquadro Esplora derivazioni.

Un grafico di derivazione che mostra le relazioni a livello di colonna tra le tabelle.
Visualizzazione della derivazione a livello di colonna

Per rimuovere tutti i filtri e tornare alla visualizzazione predefinita, fai clic su Ripristina.

Dettagli nodo

Per visualizzare i dettagli di un nodo, fai clic sul nodo. Viene visualizzato un riquadro laterale con informazioni dettagliate sull'asset di dati selezionato. Ad esempio, in una visualizzazione della derivazione a livello di tabella, se fai clic su un nodo vengono visualizzate informazioni come il nome completo, il tipo e altri attributi pertinenti dell'asset.

Il riquadro dei dettagli per un nodo selezionato nel grafico della derivazione.
Dettagli nodo

Controllo e cronologia delle esecuzioni

Un grafico della genealogia completo è il risultato di esecuzioni di molti job diversi, con ogni job che crea un collegamento specifico nel grafico. Le esecuzioni multiple vengono registrate come nuove esecuzioni, ma non modificano l'aspetto statico del grafico.

Per visualizzare i dettagli di queste singole esecuzioni, fai clic su un bordo con un processo nel grafico. Nel riquadro Query visualizzato, fai clic sulla scheda Esecuzioni.

Il riquadro Query che mostra le schede Dettagli ed Esecuzioni.
Riquadro query

Esamina la logica di trasformazione

Per comprendere la logica di business di una trasformazione senza cercare il codice, puoi visualizzare la query SQL esatta che è stata eseguita. Per visualizzare il codice SQL, fai clic su un bordo con un processo nel grafico. Nel riquadro laterale visualizzato, fai clic sulla scheda Dettagli.

Visualizzazione del percorso di derivazione

La visualizzazione del percorso di derivazione ti aiuta a tracciare il percorso da qualsiasi nodo selezionato nel grafico fino alla voce principale. Quando selezioni un nodo e fai clic su Visualizza percorso, il grafico evidenzia solo i nodi e i processi che formano il percorso di derivazione diretto alla voce principale.

Per visualizzare la visualizzazione del percorso di derivazione, nel riquadro Esplora derivazione, applica un filtro per creare una visualizzazione Grafico mirata. Quindi, nella visualizzazione Grafico, seleziona un nodo. Nel riquadro dei dettagli del nodo selezionato, fai clic su Visualizza percorso.

La visualizzazione del percorso di derivazione è disponibile per la derivazione a livello di tabella e di colonna. Puoi anche utilizzare la visualizzazione del percorso di derivazione nella visualizzazione Elenco.

Pulsante di visualizzazione del percorso di derivazione nella visualizzazione del grafico di derivazione a livello di colonna.
Pulsante di visualizzazione del percorso di derivazione nella visualizzazione del grafico di derivazione a livello di colonna

Visualizzazione elenco derivazione

La visualizzazione Elenco offre una rappresentazione tabellare e strutturata della derivazione, sincronizzata con la visualizzazione Grafico. Facilita l'ordinamento, il filtraggio e il download degli asset di dati. Questa visualizzazione è ideale per analizzare le relazioni tra origine e destinazione, descrivere in dettaglio gli asset coinvolti ed esportare i dati di derivazione.

La visualizzazione Elenco è disponibile sia per la derivazione a livello di tabella sia per quella a livello di colonna. Puoi alternare le seguenti visualizzazioni elenco dettagliate e semplificate.

  • Visualizzazione elenco semplificata: questa visualizzazione è utile per ottenere un elenco compresso e univoco di tutti gli asset coinvolti nella derivazione. Le colonne come Sistema, Progetto, Entità, FQN (nome completo), Direzione e Profondità ti aiutano a visualizzare tutti gli asset di dati nella provenienza, dove si trovano, la loro origine e la loro distanza dall'asset centrale analizzato. È ideale per una panoramica generale di tutte le entità che partecipano al flusso di dati. È la visualizzazione predefinita.

  • Visualizzazione elenco dettagliato: questa visualizzazione è progettata per analizzare le singole relazioni origine-destinazione. Fornendo colonne separate per Origine e Destinazione, puoi visualizzare ogni collegamento di trasformazione dei dati specifico. Questa visualizzazione è ideale per le attività che richiedono una conoscenza approfondita di come si spostano i dati tra coppie specifiche di asset, ad esempio il controllo dei singoli flussi di dati, la comprensione delle dipendenze tra le tabelle o l'esportazione di record di lineage dettagliati per ogni connessione.

Visualizzazione elenco della derivazione a livello di tabella

Questa visualizzazione mostra le relazioni tra le tabelle nel loro complesso. Utilizza i filtri forniti per selezionare le colonne che ti interessano.

Una tabella che mostra la visualizzazione elenco semplificata della derivazione a livello di tabella.
Visualizzazione elenco semplificata a livello di tabella

Espandi le sezioni seguenti per visualizzare le colonne disponibili nelle visualizzazioni elenco a livello di tabella.

Colonne disponibili nella visualizzazione elenco semplificata a livello di tabella

  • Sistema: il sistema in cui si trova l'asset di dati. Alcuni esempi sono BigQuery.
  • Progetto: l'ID progetto Google Cloud contenente l'asset di dati.
  • Entità: il nome dell'asset di dati. Gli esempi includono un nome di tabella.
  • FQN: il nome completo (FQN) dell'entità o della colonna di origine originale.
  • Direzione: indica se l'asset elencato è a monte (origine) o a valle (destinazione) nel flusso di derivazione.
  • Profondità: il numero di passaggi di derivazione dalla risorsa centrale analizzata.

Colonne disponibili nella visualizzazione elenco dettagliata a livello di tabella

  • Sistema di origine: il sistema in cui si trova l'asset di dati di origine. Alcuni esempi sono BigQuery.
  • Progetto di origine: l'ID progetto contenente l'asset di dati di origine. Google Cloud
  • Origine: il nome dell'asset di dati di origine. Gli esempi includono il nome di una tabella.
  • Nome completo di origine: il nome completo dell'entità di origine.
  • Sistema di destinazione: il sistema in cui si trova l'asset di dati di destinazione. Alcuni esempi sono BigQuery.
  • Progetto di destinazione: l'ID progetto Google Cloud contenente l'asset di dati di destinazione.
  • Target: il nome dell'asset di dati target. Gli esempi includono il nome di una tabella.
  • Nome completo di destinazione: il nome completo dell'entità di destinazione.
  • Direzione: indica se l'asset elencato è a monte (origine) o a valle (destinazione) nel flusso di derivazione.
  • Profondità: il numero di passaggi di derivazione dalla risorsa centrale analizzata.

Visualizzazione elenco della derivazione a livello di colonna

Questa visualizzazione mostra le relazioni tra le singole colonne delle tabelle di origine e di destinazione. Utilizza i filtri forniti per selezionare le colonne che ti interessano.

Una tabella che mostra la visualizzazione elenco semplificata della derivazione a livello di colonna.
Visualizzazione elenco semplificata a livello di colonna

Espandi le sezioni seguenti per visualizzare le colonne disponibili nelle visualizzazioni elenco a livello di colonna.

Colonne disponibili nella visualizzazione elenco semplificata a livello di colonna

  • Sistema: il sistema in cui si trova l'asset di dati. Alcuni esempi sono BigQuery.
  • Progetto: l'ID progetto Google Cloud contenente l'asset di dati.
  • Entità: il nome dell'asset di dati. Gli esempi includono un nome di tabella.
  • Colonna: la colonna specifica scelta nel riquadro Esplora derivazioni all'interno dell'entità.
  • FQN: il nome completo (FQN) dell'entità o della colonna di origine originale.
  • Direzione: indica se l'asset elencato è a monte (origine) o a valle (destinazione) nel flusso di derivazione.
  • Profondità: il numero di passaggi di derivazione dalla risorsa centrale analizzata.

Colonne disponibili nella visualizzazione elenco dettagliata a livello di colonna

  • Sistema di origine: il sistema in cui si trova l'asset di dati di origine.
  • Progetto di origine: l'ID progetto contenente l'asset di dati di origine. Google Cloud
  • Nome completo di origine: il nome completo della colonna di origine.
  • Sistema di destinazione: il sistema in cui si trova l'asset di dati di destinazione.
  • Progetto di destinazione: l' Google Cloud ID progetto contenente l'asset di dati di destinazione.
  • Nome completo di destinazione: il nome completo della colonna di destinazione.
  • Direzione: indica se il flusso di dati è a monte o a valle.
  • Tipi di dipendenza: descrive la natura della relazione tra le colonne.
  • Profondità: il numero di passaggi di derivazione dalla risorsa centrale analizzata.

Passaggi successivi