La derivazione dei dati ti aiuta a capire come i dati si spostano nei tuoi sistemi monitorando le relazioni tra gli asset di dati e i processi che li trasformano. Puoi visualizzare queste informazioni sulla derivazione come grafici ed elenchi nella console Google Cloud .
Questo documento fornisce una panoramica del modello di informazioni sulla derivazione dei dati, dettagli sulla granularità della derivazione a livello di tabella e colonna e istruzioni sull'utilizzo delle visualizzazioni a grafico e elenco per esplorare la derivazione dei dati.
Modello di informazioni sulla derivazione dei dati
La derivazione è un record dei dati trasformati dalle origini alle destinazioni. L'API Data Lineage raccoglie queste informazioni e le organizza in un modello dei dati gerarchico che utilizza i concetti di processi, esecuzioni ed eventi.
- Processo: una definizione di trasformazione dei dati.
- Esecuzione: l'esecuzione di un processo.
- Evento: un record dello spostamento dei dati durante un'esecuzione.
Processo
Un processo è la definizione di un'operazione di trasformazione dei dati per un sistema specifico. Per la derivazione di BigQuery, un processo è un job di un tipo di job supportato. Tutte le esecuzioni della stessa query SQL sono collegate a un singolo processo, il che ti consente di monitorare ogni istanza in cui viene utilizzata una logica di trasformazione specifica.
Ad esempio, la seguente query SQL è un processo. Questa query crea una tabella contando il numero totale di viaggi per ogni fornitore da due tabelle di origine.
CREATE TABLE `dataplex-docs.data_lineage_demo.total_green_trips_22_21`
AS
SELECT
vendor_id,
COUNT(*) AS number_of_trips
FROM
(
SELECT vendor_id
FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2022`
UNION ALL
SELECT vendor_id
FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2021`
)
GROUP BY
vendor_id;
Il formato del nome della risorsa REST per un processo è
projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID
.
Ad esempio: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6
Per saperne di più sulla risorsa process
, consulta il
riferimento alla risorsa Process.
Esegui
Per esecuzione si intende la singola esecuzione di un processo. I processi possono avere più esecuzioni.
Ogni esecuzione è un'operazione unica caratterizzata da un startTime
, un endTime
e
uno stato finale, ad esempio COMPLETED
, FAILED
o ABORTED
.
Ad esempio, l'esecuzione della query SQL dalla sezione Processo alle 9:00 crea un'esecuzione specifica. L'esecuzione della stessa query alle 10:00 crea una nuova esecuzione distinta. Entrambe le esecuzioni sono collegate allo stesso processo principale.
Il formato del nome della risorsa REST per un'esecuzione mostra che è una risorsa secondaria di un processo:
projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID/runs/RUN_ID
.
Ad esempio: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6/runs/83dd03a51cd2ac80f465c9e267a950b1
Per saperne di più sulla risorsa run
, consulta il
riferimento alla risorsa di esecuzione.
Evento
Un evento rappresenta un punto nel tempo in cui una trasformazione dei dati sposta i dati tra un'entità di origine e una di destinazione. Un evento è un record granulare di un movimento di dati specifico che collega le tabelle di origine e di destinazione per una esecuzione specifica. Un evento può avere anche più origini e destinazioni.
Ad esempio, se l'esecuzione esegue la query SQL descritta nella sezione
Procedura, un evento di lineage registra che le tabelle di origine
nyc_green_trips_2021
e nyc_green_trips_2022
vengono utilizzate per creare la tabella di destinazione
total_green_trips_22_21
.
Un evento di derivazione contiene un elenco di link che definiscono l'origine e la destinazione. Gli eventi vengono utilizzati per creare grafici di derivazione. Sebbene la console Google Cloud presenti questi grafici di derivazione, non mostra direttamente i singoli eventi. Puoi creare, leggere ed eliminare, ma non aggiornare gli eventi utilizzando l'API Data Lineage.
Ogni collegamento all'interno di un evento definisce un singolo percorso di flusso di dati da un'entità di origine a un'entità di destinazione. Un'entità è un riferimento a un asset di dati, ad esempio una tabella BigQuery, ed è identificata dal suo nome completo (FQN). Un singolo evento può contenere più link, il che è comune in operazioni come le unioni di tabelle in cui più origini contribuiscono a una destinazione.
Per informazioni dettagliate su come gli eventi supportano la derivazione a livello di colonna, vedi Derivazione a livello di colonna.
Granularità della derivazione
La derivazione dei dati consente di tracciare l'origine e il percorso di trasformazione dei dati a livello di tabella e colonna.
Derivazione a livello di tabella
La derivazione a livello di tabella fornisce una panoramica generale delle pipeline di dati mostrando le relazioni tra intere tabelle. Utilizza la derivazione a livello di tabella per attività a livello macro come le seguenti:
Rilevamento dei dati. Un analista che crea una nuova dashboard può utilizzare la derivazione a livello di tabella per risalire alle origini di una tabella riepilogativa e confermare che i dati provengono da un database autorevole.
Pianificazione della migrazione. Un amministratore di database che prevede di eseguire la migrazione di un database principale può utilizzare la derivazione a livello di tabella per identificare ogni report e dashboard downstream che dipende da esso.
Controllo e governance. Un responsabile della governance dei dati può utilizzare la derivazione a livello di tabella e di colonna per verificare il flusso dei dati di una tabella contenente informazioni che consentono l'identificazione personale (PII) in una pipeline.
Derivazione a livello di colonna
La derivazione a livello di colonna fornisce una visualizzazione più granulare monitorando il flusso di dati tra le singole colonne. In questa visualizzazione, i link all'interno di un evento di lignaggio rappresentano la relazione tra una colonna di origine e una colonna target. Ciascuno di questi link a livello di colonna ha un tipo di dipendenza che descrive la trasformazione:
Exact copy
: i valori vengono copiati tra le colonne.Other
: altri tipi di dipendenze tra le colonne.
Utilizza la derivazione a livello di colonna per attività come le seguenti:
Analisi delle cause principali. Se un analista dei dati trova un valore errato in una colonna, può utilizzare la derivazione a livello di colonna per risalire alle colonne di origine e trovare la causa principale.
Analisi d'impatto. Prima di ritirare una colonna, un data engineer può utilizzare la derivazione a livello di colonna per trovare ogni colonna downstream che dipende da essa.
Verifica dell'origine dati per le metriche. Un analista di dati può utilizzare la derivazione a livello di colonna per identificare le colonne di origine utilizzate per calcolare una metrica senza decifrare una query SQL complessa.
La derivazione a livello di colonna viene raccolta automaticamente per i seguenti tipi di job BigQuery:
Visualizzazioni della derivazione nella console Google Cloud
La derivazione dei dati nella console Google Cloud ti consente di interagire con le informazioni sulla derivazione in due modi: puoi esplorare il grafico della derivazione in più regioni disponibili oppure puoi utilizzare il riquadro Esplora derivazione per ottenere una visualizzazione più mirata all'interno di una regione specifica. Puoi anche passare dalla visualizzazione Grafico alla visualizzazione Elenco per analizzare il flusso di dati a diversi livelli di dettaglio.
Le visualizzazioni della derivazione sono disponibili solo per le voci di Dataplex Universal Catalog, gli asset BigQuery e le risorse Vertex AI (modelli, set di dati, visualizzazioni dello store delle funzionalità e gruppi di funzionalità).
Per visualizzare le diverse visualizzazioni descritte in questa pagina, consulta Utilizzare la derivazione dei dati con i sistemi Google Cloud .
Visualizzazione del grafico di derivazione
La visualizzazione Grafico mostra il flusso e le relazioni degli asset di dati tra sistemi e regioni, aiutandoti a comprendere l'architettura dei dati, tracciare le origini e le destinazioni e identificare i pattern. Questi grafici di derivazione, generati dal servizio API Data Lineage per una voce specifica del catalogo universale Dataplex, mostrano come i dati vengono trasformati nel tempo, visualizzando i flussi a monte, a valle o entrambi da una voce radice selezionata.
L'API Data Lineage riceve automaticamente le informazioni sugli asset dai sistemi supportati e tramite chiamate API per le origini personalizzate.
Gli elementi chiave del grafico sono descritti come segue:
Nodi. Rappresentano le entità di dati. In una visualizzazione a livello di tabella, un nodo mostra il nome della tabella e le relative colonne. In una visualizzazione a livello di colonna, ogni nodo rappresenta una tabella e una colonna specifiche.
Bordi. Le linee che collegano i nodi e rappresentano i processi che si verificano tra loro. L'aspetto di un bordo dipende dalla visualizzazione della derivazione:
- Nella visualizzazione a livello di tabella, i bordi hanno icone che indicano le trasformazioni dei dati.
- Nella visualizzazione a livello di colonna, i bordi hanno etichette che indicano le trasformazioni dei dati. Ad esempio, un'etichetta del bordo potrebbe indicare
Exact copy
per descrivere come una colonna di origine è stata copiata in una colonna di destinazione.
Icone ed etichette di processo. Appaiono sui bordi per fornire maggiori informazioni sulla trasformazione.
- Icone. Rappresentano il processo di trasformazione. Quando esplori manualmente il grafico, le icone sui bordi rappresentano il sistema di origine del processo (ad esempio BigQuery o Vertex AI). Se sono coinvolti più processi, viene visualizzata un'icona "Più processi". Se il sistema di origine del processo è sconosciuto, viene utilizzata un'icona a forma di ingranaggio. Quando applichi i filtri, viene utilizzata un'icona a forma di ingranaggio per tutti i processi.
- Etichette. Nella visualizzazione della derivazione a livello di colonna, un'etichetta descrive il tipo
di dipendenza tra le colonne:
Exact copy
oOther
.
Esplorare manualmente il grafico della derivazione
Quando apri la scheda Lignaggio, viene visualizzata la visualizzazione predefinita Grafico. La visualizzazione predefinita fornisce una panoramica generale di sistemi e regioni, con un'espansione manuale e incrementale del grafico che può caricare cinque nodi alla volta. Le icone dei processi sui bordi rappresentano il sistema di origine o indicano più processi.
Applicare filtri per una visualizzazione della derivazione mirata
Per filtrare i dati di derivazione per un'analisi mirata all'interno di una regione specifica, utilizza il riquadro Esplora derivazione. Ecco alcuni criteri che puoi utilizzare per passare a una visualizzazione mirata:
- Nome colonna: filtra la derivazione in base al nome della colonna per visualizzare i dettagli a livello di colonna.
- Direzione: mostra la derivazione a monte o a valle oppure entrambe.
- Intervallo di tempo: filtra la derivazione in base a un'ora di inizio o di fine specifica.
- Tipo di dipendenza: filtra la derivazione a livello di colonna in base al tipo di dipendenza.
Esempi di opzioni disponibili includono
All
oExact copy
.
La visualizzazione mirata espande automaticamente il grafico fino a tre livelli, caricando tutta la derivazione corrispondente ai criteri di filtro. Supporta la derivazione a livello di tabella e di colonna, inclusa la visualizzazione del percorso da qualsiasi nodo selezionato fino alla radice. In questa visualizzazione mirata, viene utilizzata un'icona a forma di ingranaggio generica per tutti i processi.
Per visualizzare la derivazione a livello di colonna, puoi seguire uno dei seguenti metodi:
In una visualizzazione Grafico mirata, fai clic sull'icona della colonna in una tabella per passare alla derivazione a livello di colonna.
Icona della colonna Nella visualizzazione Grafico predefinita o in quella Grafico focalizzata, applica un nome di colonna nel riquadro Esplora derivazioni.
Per rimuovere tutti i filtri e tornare alla visualizzazione predefinita, fai clic su
Ripristina.Dettagli nodo
Per visualizzare i dettagli di un nodo, fai clic sul nodo. Viene visualizzato un riquadro laterale con informazioni dettagliate sull'asset di dati selezionato. Ad esempio, in una visualizzazione della derivazione a livello di tabella, se fai clic su un nodo vengono visualizzate informazioni come il nome completo, il tipo e altri attributi pertinenti dell'asset.
Controllo e cronologia delle esecuzioni
Un grafico della genealogia completo è il risultato di esecuzioni di molti job diversi, con ogni job che crea un collegamento specifico nel grafico. Le esecuzioni multiple vengono registrate come nuove esecuzioni, ma non modificano l'aspetto statico del grafico.
Per visualizzare i dettagli di queste singole esecuzioni, fai clic su un bordo con un processo nel grafico. Nel riquadro Query visualizzato, fai clic sulla scheda Esecuzioni.
Esamina la logica di trasformazione
Per comprendere la logica di business di una trasformazione senza cercare il codice, puoi visualizzare la query SQL esatta che è stata eseguita. Per visualizzare il codice SQL, fai clic su un bordo con un processo nel grafico. Nel riquadro laterale visualizzato, fai clic sulla scheda Dettagli.
Visualizzazione del percorso di derivazione
La visualizzazione del percorso di derivazione ti aiuta a tracciare il percorso da qualsiasi nodo selezionato nel grafico fino alla voce principale. Quando selezioni un nodo e fai clic su Visualizza percorso, il grafico evidenzia solo i nodi e i processi che formano il percorso di derivazione diretto alla voce principale.
Per visualizzare la visualizzazione del percorso di derivazione, nel riquadro Esplora derivazione, applica un filtro per creare una visualizzazione Grafico mirata. Quindi, nella visualizzazione Grafico, seleziona un nodo. Nel riquadro dei dettagli del nodo selezionato, fai clic su Visualizza percorso.
La visualizzazione del percorso di derivazione è disponibile per la derivazione a livello di tabella e di colonna. Puoi anche utilizzare la visualizzazione del percorso di derivazione nella visualizzazione Elenco.
Visualizzazione elenco derivazione
La visualizzazione Elenco offre una rappresentazione tabellare e strutturata della derivazione, sincronizzata con la visualizzazione Grafico. Facilita l'ordinamento, il filtraggio e il download degli asset di dati. Questa visualizzazione è ideale per analizzare le relazioni tra origine e destinazione, descrivere in dettaglio gli asset coinvolti ed esportare i dati di derivazione.
La visualizzazione Elenco è disponibile sia per la derivazione a livello di tabella sia per quella a livello di colonna. Puoi alternare le seguenti visualizzazioni elenco dettagliate e semplificate.
Visualizzazione elenco semplificata: questa visualizzazione è utile per ottenere un elenco compresso e univoco di tutti gli asset coinvolti nella derivazione. Le colonne come Sistema, Progetto, Entità, FQN (nome completo), Direzione e Profondità ti aiutano a visualizzare tutti gli asset di dati nella provenienza, dove si trovano, la loro origine e la loro distanza dall'asset centrale analizzato. È ideale per una panoramica generale di tutte le entità che partecipano al flusso di dati. È la visualizzazione predefinita.
Visualizzazione elenco dettagliato: questa visualizzazione è progettata per analizzare le singole relazioni origine-destinazione. Fornendo colonne separate per Origine e Destinazione, puoi visualizzare ogni collegamento di trasformazione dei dati specifico. Questa visualizzazione è ideale per le attività che richiedono una conoscenza approfondita di come si spostano i dati tra coppie specifiche di asset, ad esempio il controllo dei singoli flussi di dati, la comprensione delle dipendenze tra le tabelle o l'esportazione di record di lineage dettagliati per ogni connessione.
Visualizzazione elenco della derivazione a livello di tabella
Questa visualizzazione mostra le relazioni tra le tabelle nel loro complesso. Utilizza i filtri forniti per selezionare le colonne che ti interessano.
Espandi le sezioni seguenti per visualizzare le colonne disponibili nelle visualizzazioni elenco a livello di tabella.
Colonne disponibili nella visualizzazione elenco semplificata a livello di tabella
- Sistema: il sistema in cui si trova l'asset di dati. Alcuni esempi sono BigQuery.
- Progetto: l'ID progetto Google Cloud contenente l'asset di dati.
- Entità: il nome dell'asset di dati. Gli esempi includono un nome di tabella.
- FQN: il nome completo (FQN) dell'entità o della colonna di origine originale.
- Direzione: indica se l'asset elencato è a monte (origine) o a valle (destinazione) nel flusso di derivazione.
- Profondità: il numero di passaggi di derivazione dalla risorsa centrale analizzata.
Colonne disponibili nella visualizzazione elenco dettagliata a livello di tabella
- Sistema di origine: il sistema in cui si trova l'asset di dati di origine. Alcuni esempi sono BigQuery.
- Progetto di origine: l'ID progetto contenente l'asset di dati di origine. Google Cloud
- Origine: il nome dell'asset di dati di origine. Gli esempi includono il nome di una tabella.
- Nome completo di origine: il nome completo dell'entità di origine.
- Sistema di destinazione: il sistema in cui si trova l'asset di dati di destinazione. Alcuni esempi sono BigQuery.
- Progetto di destinazione: l'ID progetto Google Cloud contenente l'asset di dati di destinazione.
- Target: il nome dell'asset di dati target. Gli esempi includono il nome di una tabella.
- Nome completo di destinazione: il nome completo dell'entità di destinazione.
- Direzione: indica se l'asset elencato è a monte (origine) o a valle (destinazione) nel flusso di derivazione.
- Profondità: il numero di passaggi di derivazione dalla risorsa centrale analizzata.
Visualizzazione elenco della derivazione a livello di colonna
Questa visualizzazione mostra le relazioni tra le singole colonne delle tabelle di origine e di destinazione. Utilizza i filtri forniti per selezionare le colonne che ti interessano.
Espandi le sezioni seguenti per visualizzare le colonne disponibili nelle visualizzazioni elenco a livello di colonna.
Colonne disponibili nella visualizzazione elenco semplificata a livello di colonna
- Sistema: il sistema in cui si trova l'asset di dati. Alcuni esempi sono BigQuery.
- Progetto: l'ID progetto Google Cloud contenente l'asset di dati.
- Entità: il nome dell'asset di dati. Gli esempi includono un nome di tabella.
- Colonna: la colonna specifica scelta nel riquadro Esplora derivazioni all'interno dell'entità.
- FQN: il nome completo (FQN) dell'entità o della colonna di origine originale.
- Direzione: indica se l'asset elencato è a monte (origine) o a valle (destinazione) nel flusso di derivazione.
- Profondità: il numero di passaggi di derivazione dalla risorsa centrale analizzata.
Colonne disponibili nella visualizzazione elenco dettagliata a livello di colonna
- Sistema di origine: il sistema in cui si trova l'asset di dati di origine.
- Progetto di origine: l'ID progetto contenente l'asset di dati di origine. Google Cloud
- Nome completo di origine: il nome completo della colonna di origine.
- Sistema di destinazione: il sistema in cui si trova l'asset di dati di destinazione.
- Progetto di destinazione: l' Google Cloud ID progetto contenente l'asset di dati di destinazione.
- Nome completo di destinazione: il nome completo della colonna di destinazione.
- Direzione: indica se il flusso di dati è a monte o a valle.
- Tipi di dipendenza: descrive la natura della relazione tra le colonne.
- Profondità: il numero di passaggi di derivazione dalla risorsa centrale analizzata.
Passaggi successivi
Scopri di più sulle origini della derivazione.
Scopri come monitorare la derivazione dei dati per una copia della tabella BigQuery e per i job di query.
Scopri come utilizzare la derivazione dei dati con i sistemi Google Cloud .