La derivazione dei dati consente di monitorare il modo in cui i dati vengono trasferiti nei sistemi. Puoi visualizzare l'origine, le destinazioni e le trasformazioni applicate a una risorsa di dati.
Puoi visualizzare le informazioni sulla derivazione nella console Google Cloud per gli asset Dataplex Universal Catalog, BigQuery e Vertex AI oppure puoi recuperarle utilizzando l'API Data Lineage.
Perché è necessaria la derivazione dei dati
I set di dati di grandi dimensioni spesso richiedono la trasformazione dei dati in vari formati per progetti specifici, come file di testo, tabelle, report, dashboard e modelli.
Ad esempio, un negozio online potrebbe avere una pipeline di dati con il seguente flusso:
Un job Dataflow legge gli eventi di acquisto non elaborati da un argomento Pub/Sub, i dettagli dei prodotti dai file Cloud Storage e le informazioni sui clienti da una tabella BigQuery. Il job unisce queste informazioni e crea una tabella
purchases
in BigQuery.I job BigQuery successivi trasformano la tabella
purchases
per creare tabelle aggregate più piccole, comeregion
obrand
, e calcolare nuove colonne, cometotal_profit
.Gli analisti utilizzano queste tabelle per generare report e dashboard in Looker.
Questo scenario comune può presentare diverse sfide:
I consumatori di dati non dispongono di un metodo self-service per verificare se i dati provengono da un'origine autorevole.
Gli ingegneri dei dati faticano a trovare la causa principale dei problemi perché non riescono a monitorare in modo affidabile tutte le trasformazioni dei dati. Ad esempio, se un analista trova un errore in una colonna
total_profit
, è difficile risalire all'origine dell'errore.Gli ingegneri e gli analisti dei dati non possono valutare appieno il potenziale impatto della modifica o dell'eliminazione delle tabelle. Ad esempio, prima di ritirare una colonna
product_id
, devono identificare tutte le colonne downstream dipendenti per evitare di interrompere i report.I responsabili della governance dei dati non hanno visibilità su come vengono utilizzati i dati sensibili nell'organizzazione, il che rende difficile garantire la conformità ai requisiti normativi.
La lineage dei dati risolve questi problemi fornendo una mappa visiva chiara del percorso dei dati. Con la derivazione dei dati, puoi:
Comprendere come vengono acquisiti e trasformati i dati utilizzando i grafici di derivazione.
Trace gli errori nelle voci e nelle operazioni di dati fino alle loro cause principali.
Consenti una migliore gestione delle modifiche tramite l'analisi dell'impatto per evitare tempi di inattività o errori imprevisti, comprendere le dipendenze e collaborare con gli stakeholder.
Flusso di lavoro della derivazione dei dati
Il flusso di lavoro della derivazione dei dati include i seguenti passaggi:
Origini dati e importazione: le informazioni sulla derivazione delle origini dati avviano l'intero processo. Per ulteriori informazioni, vedi Origini della derivazione.
Google Cloud Servizi: quando l'API Data Lineage è abilitata, i servizi supportati come BigQuery e Dataflow segnalano automaticamente gli eventi di derivazione ogni volta che i dati vengono spostati o trasformati.
Origini personalizzate: per tutti i sistemi non supportati automaticamente dalle integrazioni diGoogle Cloud , puoi utilizzare l'API Data Lineage per registrare manualmente le informazioni sulla derivazione. Ti consigliamo di importare gli eventi formattati in base allo standard OpenLineage.
Piattaforma di lineage: questa piattaforma centrale importa, modella e archivia tutti i dati di lineage. Per maggiori informazioni, consulta Modello e granularità delle informazioni sulla derivazione.
API Data Lineage: questa API funge da unico punto di accesso per tutte le informazioni sulla derivazione in entrata. Utilizza un modello dei dati gerarchico costituito da tre concetti fondamentali: processo, esecuzione ed evento.
Elaborazione e archiviazione: la piattaforma elabora i dati in entrata e li archivia in database affidabili e ottimizzati per le query.
Esperienza utente: puoi interagire con le informazioni sulla derivazione archiviate in due modi principali:
Esplorazione visiva: nella console Google Cloud , un servizio frontend recupera e visualizza i dati di derivazione come grafico o elenco interattivo. Questa funzionalità è supportata per Dataplex Universal Catalog, BigQuery e Vertex AI (per modelli, set di dati, viste di Feature Store e gruppi di funzionalità). È ideale per esplorare visivamente il percorso dei dati. Per maggiori informazioni, consulta Viste della derivazione nella console Google Cloud .
Accesso programmatico: utilizzando un client API, puoi comunicare direttamente con l'API Data Lineage per automatizzare la gestione della derivazione. In questo modo puoi scrivere informazioni sulla derivazione da origini personalizzate. Consente inoltre di leggere ed eseguire query sui dati di derivazione archiviati per l'utilizzo in altre applicazioni o per la creazione di report personalizzati.
Origini della derivazione
Puoi compilare le informazioni sulla derivazione in Dataplex Universal Catalog nei seguenti modi:
- Automaticamente dai servizi Google Cloud integrati
- Manualmente, utilizzando l'API Data Lineage per le origini personalizzate
- Importando gli eventi da OpenLineage
Monitoraggio automatizzato della derivazione dei dati
Quando abiliti l'API Data Lineage, Google Cloud i sistemi che supportano la derivazione dei dati iniziano a segnalare il movimento dei dati. Ogni sistema integrato può inviare informazioni sulla derivazione per un intervallo diverso di origini dati.
BigQuery
Quando abiliti la derivazione dei dati nel tuo progetto BigQuery, il Catalogo universale Dataplex registra automaticamente le informazioni sulla derivazione per quanto segue:
Nuove tabelle create in seguito ai seguenti job BigQuery:
- Job di copia
- Job di caricamento che utilizzano un URI Cloud Storage
- Job di query che utilizzano il seguente linguaggio di definizione dei dati (DDL) in GoogleSQL:
Tabelle esistenti quando utilizzi le seguenti istruzioni DML (Data Manipulation Language) in GoogleSQL:
SELECT
in relazione a uno dei tipi di tabella elencati:INSERT SELECT
MERGE
UPDATE
DELETE
I job di copia, query e caricamento BigQuery sono rappresentati come processi.
Per visualizzare i dettagli del processo, fai clic su
nel grafico della derivazione.
Ogni processo contiene l'job_id di BigQuery nell'elenco attributes per il job BigQuery più recente.
Altri servizi
La derivazione dei dati supporta l'integrazione con i seguenti servizi Google Cloud :
Lignaggio dei dati per le origini dati personalizzate
Puoi utilizzare l'API Data Lineage per registrare manualmente le informazioni sulla derivazione per qualsiasi origine dati non supportata dai sistemi integrati.
Dataplex Universal Catalog può creare grafici di derivazione per la derivazione registrata manualmente se utilizzi un fullyQualifiedName
che corrisponde ai nomi completi delle voci Dataplex Universal Catalog esistenti. Se vuoi registrare
la derivazione per un'origine dati personalizzata, devi prima creare una
voce personalizzata.
Ogni processo per un'origine dati personalizzata può contenere una chiave sql
nell'elenco degli attributi. Il valore di questa chiave viene utilizzato per visualizzare un'evidenziazione del codice nel riquadro dei dettagli del grafico della derivazione dei dati. L'istruzione SQL viene visualizzata così com'è
stata fornita. Sei responsabile del filtraggio dei informazioni sensibili. Il
nome della chiave sql
è sensibile alle maiuscole.
OpenLineage
Se utilizzi già OpenLineage per raccogliere informazioni sulla derivazione da altre origini dati, puoi importare gli eventi OpenLineage in Dataplex Universal Catalog e visualizzarli nella console Google Cloud . Per ulteriori informazioni, consulta Integrazione con OpenLineage.
Limitazioni
Di seguito sono riportate le limitazioni per la derivazione dei dati:
Tutte le informazioni sulla derivazione vengono conservate nel sistema solo per 30 giorni.
Le informazioni sulla derivazione persistono dopo l'eliminazione dell'origine dati correlata. Ad esempio, se elimini una tabella BigQuery, puoi comunque visualizzarne la derivazione tramite l'API e la console per un massimo di 30 giorni.
Limitazioni della derivazione a livello di colonna
La derivazione a livello di colonna presenta le seguenti limitazioni aggiuntive:
La derivazione a livello di colonna non viene raccolta per i job di caricamento BigQuery o per le routine.
La derivazione a livello di colonna upstream non viene raccolta per le tabelle esterne.
La derivazione a livello di colonna non viene raccolta se un job crea più di 1500 link a livello di colonna. In questi casi, viene raccolta solo la derivazione a livello di tabella.
Non esiste un'API per creare, leggere, aggiornare, eliminare o cercare la derivazione a livello di colonna.
Il supporto per le tabelle partizionate è limitato, perché le colonne di partizionamento come
_PARTITIONDATE
e_PARTITIONTIME
non vengono riconosciute nel grafico della derivazione.Limitazioni della console:
L'attraversamento del grafico della derivazione è limitato a una profondità di 20 livelli e 10.000 link in ogni direzione.
La derivazione a livello di colonna viene recuperata solo dalla regione in cui si trova la tabella radice. Non è disponibile il supporto per la derivazione tra regioni nella visualizzazione del grafico.
Prezzi
Il Catalogo universale Dataplex utilizza lo SKU di elaborazione premium per addebitare la derivazione dei dati. Per ulteriori informazioni, vedi Prezzi.
Per separare gli addebiti della derivazione dei dati da altri addebiti nello SKU di elaborazione premium di Dataplex Universal Catalog, nel report Cloud Billing, utilizza l'etichetta
goog-dataplex-workload-type
con il valoreLINEAGE
.Se chiami l'API Data Lineage
Origin
sourceType
con un valore diverso daCUSTOM
, ciò comporta costi aggiuntivi.
Passaggi successivi
Scopri come monitorare la derivazione dei dati per una copia della tabella BigQuery e per i job di query.
Scopri come utilizzare la derivazione dei dati con i sistemi Google Cloud .
Scopri di più sulle visualizzazioni della derivazione nella console Google Cloud .
Esplora l'API Data Lineage.
Per informazioni amministrative, vedi Considerazioni sulla derivazione e log di controllo della derivazione dei dati.