Informazioni sulla derivazione dei dati

La derivazione dei dati consente di monitorare il modo in cui i dati vengono trasferiti nei sistemi. Puoi visualizzare l'origine, le destinazioni e le trasformazioni applicate a una risorsa di dati.

Puoi visualizzare le informazioni sulla derivazione nella console Google Cloud per gli asset Dataplex Universal Catalog, BigQuery e Vertex AI oppure puoi recuperarle utilizzando l'API Data Lineage.

Perché è necessaria la derivazione dei dati

I set di dati di grandi dimensioni spesso richiedono la trasformazione dei dati in vari formati per progetti specifici, come file di testo, tabelle, report, dashboard e modelli.

Ad esempio, un negozio online potrebbe avere una pipeline di dati con il seguente flusso:

  1. Un job Dataflow legge gli eventi di acquisto non elaborati da un argomento Pub/Sub, i dettagli dei prodotti dai file Cloud Storage e le informazioni sui clienti da una tabella BigQuery. Il job unisce queste informazioni e crea una tabella purchases in BigQuery.

  2. I job BigQuery successivi trasformano la tabella purchases per creare tabelle aggregate più piccole, come region o brand, e calcolare nuove colonne, come total_profit.

  3. Gli analisti utilizzano queste tabelle per generare report e dashboard in Looker.

Questo scenario comune può presentare diverse sfide:

  • I consumatori di dati non dispongono di un metodo self-service per verificare se i dati provengono da un'origine autorevole.

  • Gli ingegneri dei dati faticano a trovare la causa principale dei problemi perché non riescono a monitorare in modo affidabile tutte le trasformazioni dei dati. Ad esempio, se un analista trova un errore in una colonna total_profit, è difficile risalire all'origine dell'errore.

  • Gli ingegneri e gli analisti dei dati non possono valutare appieno il potenziale impatto della modifica o dell'eliminazione delle tabelle. Ad esempio, prima di ritirare una colonna product_id, devono identificare tutte le colonne downstream dipendenti per evitare di interrompere i report.

  • I responsabili della governance dei dati non hanno visibilità su come vengono utilizzati i dati sensibili nell'organizzazione, il che rende difficile garantire la conformità ai requisiti normativi.

La lineage dei dati risolve questi problemi fornendo una mappa visiva chiara del percorso dei dati. Con la derivazione dei dati, puoi:

  • Comprendere come vengono acquisiti e trasformati i dati utilizzando i grafici di derivazione.

  • Trace gli errori nelle voci e nelle operazioni di dati fino alle loro cause principali.

  • Consenti una migliore gestione delle modifiche tramite l'analisi dell'impatto per evitare tempi di inattività o errori imprevisti, comprendere le dipendenze e collaborare con gli stakeholder.

Flusso di lavoro della derivazione dei dati

Il flusso di lavoro della derivazione dei dati include i seguenti passaggi:

  1. Origini dati e importazione: le informazioni sulla derivazione delle origini dati avviano l'intero processo. Per ulteriori informazioni, vedi Origini della derivazione.

    • Google Cloud Servizi: quando l'API Data Lineage è abilitata, i servizi supportati come BigQuery e Dataflow segnalano automaticamente gli eventi di derivazione ogni volta che i dati vengono spostati o trasformati.

    • Origini personalizzate: per tutti i sistemi non supportati automaticamente dalle integrazioni diGoogle Cloud , puoi utilizzare l'API Data Lineage per registrare manualmente le informazioni sulla derivazione. Ti consigliamo di importare gli eventi formattati in base allo standard OpenLineage.

  2. Piattaforma di lineage: questa piattaforma centrale importa, modella e archivia tutti i dati di lineage. Per maggiori informazioni, consulta Modello e granularità delle informazioni sulla derivazione.

    • API Data Lineage: questa API funge da unico punto di accesso per tutte le informazioni sulla derivazione in entrata. Utilizza un modello dei dati gerarchico costituito da tre concetti fondamentali: processo, esecuzione ed evento.

    • Elaborazione e archiviazione: la piattaforma elabora i dati in entrata e li archivia in database affidabili e ottimizzati per le query.

  3. Esperienza utente: puoi interagire con le informazioni sulla derivazione archiviate in due modi principali:

    • Esplorazione visiva: nella console Google Cloud , un servizio frontend recupera e visualizza i dati di derivazione come grafico o elenco interattivo. Questa funzionalità è supportata per Dataplex Universal Catalog, BigQuery e Vertex AI (per modelli, set di dati, viste di Feature Store e gruppi di funzionalità). È ideale per esplorare visivamente il percorso dei dati. Per maggiori informazioni, consulta Viste della derivazione nella console Google Cloud .

    • Accesso programmatico: utilizzando un client API, puoi comunicare direttamente con l'API Data Lineage per automatizzare la gestione della derivazione. In questo modo puoi scrivere informazioni sulla derivazione da origini personalizzate. Consente inoltre di leggere ed eseguire query sui dati di derivazione archiviati per l'utilizzo in altre applicazioni o per la creazione di report personalizzati.

Origini della derivazione

Puoi compilare le informazioni sulla derivazione in Dataplex Universal Catalog nei seguenti modi:

  • Automaticamente dai servizi Google Cloud integrati
  • Manualmente, utilizzando l'API Data Lineage per le origini personalizzate
  • Importando gli eventi da OpenLineage

Monitoraggio automatizzato della derivazione dei dati

Quando abiliti l'API Data Lineage, Google Cloud i sistemi che supportano la derivazione dei dati iniziano a segnalare il movimento dei dati. Ogni sistema integrato può inviare informazioni sulla derivazione per un intervallo diverso di origini dati.

BigQuery

Quando abiliti la derivazione dei dati nel tuo progetto BigQuery, il Catalogo universale Dataplex registra automaticamente le informazioni sulla derivazione per quanto segue:

I job di copia, query e caricamento BigQuery sono rappresentati come processi.

Per visualizzare i dettagli del processo, fai clic su nel grafico della derivazione.

Ogni processo contiene l'job_id di BigQuery nell'elenco attributes per il job BigQuery più recente.

Altri servizi

La derivazione dei dati supporta l'integrazione con i seguenti servizi Google Cloud :

Lignaggio dei dati per le origini dati personalizzate

Puoi utilizzare l'API Data Lineage per registrare manualmente le informazioni sulla derivazione per qualsiasi origine dati non supportata dai sistemi integrati.

Dataplex Universal Catalog può creare grafici di derivazione per la derivazione registrata manualmente se utilizzi un fullyQualifiedName che corrisponde ai nomi completi delle voci Dataplex Universal Catalog esistenti. Se vuoi registrare la derivazione per un'origine dati personalizzata, devi prima creare una voce personalizzata.

Ogni processo per un'origine dati personalizzata può contenere una chiave sql nell'elenco degli attributi. Il valore di questa chiave viene utilizzato per visualizzare un'evidenziazione del codice nel riquadro dei dettagli del grafico della derivazione dei dati. L'istruzione SQL viene visualizzata così com'è stata fornita. Sei responsabile del filtraggio dei informazioni sensibili. Il nome della chiave sql è sensibile alle maiuscole.

OpenLineage

Se utilizzi già OpenLineage per raccogliere informazioni sulla derivazione da altre origini dati, puoi importare gli eventi OpenLineage in Dataplex Universal Catalog e visualizzarli nella console Google Cloud . Per ulteriori informazioni, consulta Integrazione con OpenLineage.

Limitazioni

Di seguito sono riportate le limitazioni per la derivazione dei dati:

  • Tutte le informazioni sulla derivazione vengono conservate nel sistema solo per 30 giorni.

  • Le informazioni sulla derivazione persistono dopo l'eliminazione dell'origine dati correlata. Ad esempio, se elimini una tabella BigQuery, puoi comunque visualizzarne la derivazione tramite l'API e la console per un massimo di 30 giorni.

Limitazioni della derivazione a livello di colonna

La derivazione a livello di colonna presenta le seguenti limitazioni aggiuntive:

  • La derivazione a livello di colonna non viene raccolta per i job di caricamento BigQuery o per le routine.

  • La derivazione a livello di colonna upstream non viene raccolta per le tabelle esterne.

  • La derivazione a livello di colonna non viene raccolta se un job crea più di 1500 link a livello di colonna. In questi casi, viene raccolta solo la derivazione a livello di tabella.

  • Non esiste un'API per creare, leggere, aggiornare, eliminare o cercare la derivazione a livello di colonna.

  • Il supporto per le tabelle partizionate è limitato, perché le colonne di partizionamento come _PARTITIONDATE e _PARTITIONTIME non vengono riconosciute nel grafico della derivazione.

  • Limitazioni della console:

    • L'attraversamento del grafico della derivazione è limitato a una profondità di 20 livelli e 10.000 link in ogni direzione.

    • La derivazione a livello di colonna viene recuperata solo dalla regione in cui si trova la tabella radice. Non è disponibile il supporto per la derivazione tra regioni nella visualizzazione del grafico.

Prezzi

  • Il Catalogo universale Dataplex utilizza lo SKU di elaborazione premium per addebitare la derivazione dei dati. Per ulteriori informazioni, vedi Prezzi.

  • Per separare gli addebiti della derivazione dei dati da altri addebiti nello SKU di elaborazione premium di Dataplex Universal Catalog, nel report Cloud Billing, utilizza l'etichetta goog-dataplex-workload-type con il valore LINEAGE.

  • Se chiami l'API Data Lineage Origin sourceType con un valore diverso da CUSTOM, ciò comporta costi aggiuntivi.

Passaggi successivi