Conservazione dei dati con spostamento cronologico e fail-safe

Questo documento descrive le finestre di conservazione dei dati spostamento cronologico e fail-safe per i set di dati. Durante i periodi di spostamento cronologico e fail-safe, i dati modificati o eliminati in qualsiasi tabella del set di dati continuano a essere archiviati nel caso in cui sia necessario recuperarli.

Spostamento cronologico e conservazione dei dati

Puoi accedere ai dati modificati o eliminati da qualsiasi punto all'interno della finestra di spostamento cronologico, che per impostazione predefinita copre gli ultimi sette giorni. Lo spostamento cronologico ti consente di eseguire query sui dati aggiornati o eliminati, ripristinare una tabella o un set di dati eliminato, ripristinare una tabella scaduta, o ripristinare una tabella a un momento specifico.

Puoi impostare la durata della finestra di spostamento cronologico, da un minimo di due giorni a un massimo di sette giorni. Una finestra di spostamento cronologico più lunga è utile nei casi in cui è importante poter recuperare i dati aggiornati o eliminati. Una finestra di spostamento cronologico più breve consente di risparmiare sui costi di archiviazione quando si utilizza il modello di fatturazione dello spazio di archiviazione fisico. Questi risparmi non si applicano quando si utilizza il modello di fatturazione dello spazio di archiviazione logico. Per ulteriori informazioni su come il modello di fatturazione dello spazio di archiviazione influisce sui costi, consulta Fatturazione. Non puoi impostare la durata dello spostamento cronologico per meno di 2 giorni.

Configurare la finestra di spostamento cronologico

Imposta la finestra di spostamento cronologico a livello di set di dati o di progetto. Queste impostazioni vengono quindi applicate a tutte le tabelle associate al set di dati o al progetto.

Impostare la finestra di spostamento cronologico a livello di progetto

Per specificare la finestra di spostamento cronologico predefinita a livello di progetto, puoi utilizzare le istruzioni DDL (Data Definition Language). Per scoprire come impostare la finestra di spostamento cronologico a livello di progetto, consulta Gestire le impostazioni di configurazione.

Impostare la finestra di spostamento cronologico a livello di set di dati

Per specificare o modificare la finestra di spostamento cronologico per un set di dati, puoi utilizzare la Google Cloud console, lo strumento a riga di comando bq o l'API BigQuery.

Quando modifichi una finestra di spostamento cronologico, se il timestamp specifica un'ora al di fuori della finestra di spostamento cronologico o precedente alla creazione della tabella, la query non riesce e restituisce un errore simile al seguente:

Table ID was created at time which is
before its allowed time travel interval timestamp. Creation
time: timestamp

Come funziona lo spostamento cronologico

BigQuery utilizza un formato di archiviazione a colonne. Ciò significa che i dati sono organizzati e archiviati per colonna anziché per riga. Quando hai una tabella con più colonne, i valori di ogni colonna in tutte le righe vengono archiviati insieme nei blocchi di archiviazione.

Quando modifichi una cella in una tabella BigQuery, stai modificando un valore specifico all'interno di una riga e di una colonna specifiche. Poiché BigQuery archivia le colonne insieme, la modifica anche di una singola cella all'interno di una colonna in genere richiede la lettura dell'intero blocco di archiviazione contenente i dati della colonna per le righe interessate, l'applicazione della modifica e la scrittura di una nuova versione del blocco di archiviazione.

La funzionalità di spostamento cronologico funziona monitorando le versioni dei blocchi di archiviazione che compongono la tabella. Quando aggiorni i dati, BigQuery non si limita a modificare il blocco di archiviazione esistente. Crea invece una nuova versione dei blocchi di archiviazione interessati con i dati aggiornati. La versione precedente viene quindi conservata per lo spostamento cronologico.

BigQuery utilizza blocchi di archiviazione e dimensioni dei file adattivi. Le dimensioni dei blocchi di archiviazione non sono fisse, ma possono variare a seconda di fattori come le dimensioni della tabella e la distribuzione dei dati. La modifica anche di una sola cella in un blocco di archiviazione modifica i dati della colonna, potenzialmente interessando molte righe. Pertanto, l'unità di dati con controllo delle versioni e inviata allo spostamento cronologico è spesso l'intero blocco di archiviazione che contiene i dati modificati della colonna, non solo una singola cella.

Per questo motivo, la modifica di una cella può comportare l'invio di più dati allo spostamento cronologico rispetto alle dimensioni della modifica.

In che modo la finestra di spostamento cronologico influisce sul recupero di tabelle e set di dati

Una tabella o un set di dati eliminato utilizza la durata della finestra di spostamento cronologico in vigore al momento dell'eliminazione.

Ad esempio, se la durata della finestra di spostamento cronologico è di due giorni e poi la aumenti a sette giorni, le tabelle eliminate prima di questa modifica sono recuperabili solo per due giorni. Allo stesso modo, se la durata della finestra di spostamento cronologico è di cinque giorni e la riduci a tre giorni, tutte le tabelle eliminate prima della modifica sono comunque recuperabili per cinque giorni.

Poiché le finestre di spostamento cronologico sono impostate a livello di set di dati, non puoi modificare la finestra di spostamento cronologico di un set di dati eliminato finché non viene annullata l'eliminazione.

Se riduci la durata della finestra di spostamento cronologico, elimini una tabella e poi ti rendi conto di aver bisogno di un periodo di recuperabilità più lungo per questi dati, puoi creare uno snapshot della tabella da un momento precedente all'eliminazione della tabella. Devi farlo mentre la tabella eliminata è ancora recuperabile. Per ulteriori informazioni, consulta Creare uno snapshot di una tabella utilizzando lo spostamento cronologico.

Spostamento cronologico e accesso a livello di riga

Se una tabella ha o ha avuto, policy di accesso a livello di riga, solo un amministratore della tabella può accedere ai dati storici della tabella. Per ripristinare le tabelle con policy di accesso a livello di riga è necessaria la seguente autorizzazione IAM (Identity and Access Management):

Autorizzazione Risorsa
bigquery.rowAccessPolicies.overrideTimeTravelRestrictions La tabella di cui si sta accedendo ai dati storici

L'bigquery.rowAccessPolicies.overrideTimeTravelRestrictions autorizzazione non può essere aggiunta a un ruolo personalizzato. I seguenti ruoli forniscono l'autorizzazione richiesta:

Ruolo Risorsa
roles/bigquery.admin La tabella di cui si sta accedendo ai dati storici
roles/bigquery.studioAdmin La tabella di cui si sta accedendo ai dati storici
roles/iam.databasesAdmin La tabella di cui si sta accedendo ai dati storici
  • Esegui il seguente comando per ottenere l'ora Unix epoch equivalente passando il timestamp UTC:

    date -d '2023-08-04 16:00:34.456789Z' +%s000
  • Sostituisci l'ora Unix epoch 1691164834000 ricevuta dal comando precedente nello strumento a riga di comando bq. Esegui il seguente comando per ripristinare una copia della tabella eliminata deletedTableID in un'altra tabella restoredTable, all'interno dello stesso set di dati myDatasetID:

    bq cp myProjectID:myDatasetID.deletedTableID@1691164834000 myProjectID:myDatasetID.restoredTable

Fail-safe

BigQuery fornisce un periodo di fail-safe. Durante il periodo di fail-safe, i dati eliminati vengono conservati automaticamente per altri sette giorni dopo la finestra di spostamento cronologico, in modo che siano disponibili per il recupero di emergenza. I dati sono recuperabili a livello di tabella. I dati vengono recuperati per una tabella dal momento rappresentato dal timestamp di quando la tabella è stata eliminata. Il periodo di fail-safe non è configurabile e non può essere esteso.

Quando esegui le seguenti operazioni, i dati sostituiti o rimossi possono essere recuperati tramite la finestra di spostamento cronologico. Al termine della finestra di spostamento cronologico, questi dati entrano nel periodo di fail-safe per un tempo di recupero esteso:

  • Eliminazione o sostituzione della tabella: quando una tabella viene eliminata o quando i relativi dati vengono sostituiti completamente (ad esempio, utilizzando la disposizione di scrittura WRITE_TRUNCATE in un job di caricamento o utilizzando l'istruzione CREATE OR REPLACE TABLE ), i contenuti precedenti della tabella vengono conservati.
  • Eliminazione della partizione: se una partizione specifica viene eliminata da una tabella partizionata, i dati appartenenti a quella partizione specifica vengono conservati. Le altre partizioni in la tabella non sono interessate.

Non puoi eseguire query o recuperare direttamente i dati nello spazio di archiviazione fail-safe. Per recuperare i dati dallo spazio di archiviazione fail-safe, contatta l'assistenza clienti Google Cloud.

Fatturazione

Se imposti il modello di fatturazione dello spazio di archiviazione in modo che utilizzi i byte fisici, ti vengono addebitati separatamente i byte utilizzati per lo spostamento cronologico e lo spazio di archiviazione fail-safe. Lo spazio di archiviazione per lo spostamento cronologico e fail-safe viene addebitato alla tariffa dello spazio di archiviazione fisico attivo. Puoi configurare la finestra di spostamento cronologico per bilanciare i costi di archiviazione con le tue esigenze di conservazione dei dati.

Se imposti il modello di fatturazione dello spazio di archiviazione in modo che utilizzi i byte logici, i costi totali di archiviazione per lo spostamento cronologico e lo spazio di archiviazione fail-safe sono inclusi nella tariffa di base addebitata.

La tabella seguente mostra un confronto tra i costi dello spazio di archiviazione fisico e logico:

Modello di fatturazione Cosa paghi?
Spazio di archiviazione fisico (compresso)
  • Paghi i byte attivi
  • Paghi lo spazio di archiviazione a lungo termine
  • Paghi lo spazio di archiviazione per lo spostamento cronologico
  • Paghi lo spazio di archiviazione fail-safe
Spazio di archiviazione logico (non compresso) (impostazione predefinita)
  • Paghi lo spazio di archiviazione attivo
  • Paghi lo spazio di archiviazione a lungo termine
  • Non paghi lo spazio di archiviazione per lo spostamento cronologico
  • Non paghi lo spazio di archiviazione fail-safe

Se utilizzi lo spazio di archiviazione fisico, puoi visualizzare i byte utilizzati dallo spostamento cronologico e dal fail-safe esaminando le colonne TIME_TRAVEL_PHYSICAL_BYTES e FAIL_SAFE_PHYSICAL_BYTES nelle visualizzazioni TABLE_STORAGE e TABLE_STORAGE_BY_ORGANIZATION. Per un esempio di come utilizzare una di queste visualizzazioni per stimare i costi, vedi Previsione della fatturazione dello spazio di archiviazione.

I costi di archiviazione si applicano ai dati di spostamento cronologico e fail-safe data, ma ti vengono addebitati solo se le tariffe di archiviazione dei dati non si applicano altrove in BigQuery. Si applicano i seguenti dettagli:

  • Quando viene creata una tabella, non sono previsti costi di archiviazione per lo spostamento cronologico o fail-safe.
  • Se i dati vengono modificati o eliminati, ti viene addebitato lo spazio di archiviazione dei dati modificati o eliminati salvati dallo spostamento cronologico durante la finestra di spostamento cronologico e il periodo di fail-safe. Questo è simile ai prezzi dello spazio di archiviazione per gli snapshot e i cloni delle tabelle.
  • Le tabelle temporanee non vengono addebitate per lo spazio di archiviazione fail-safe.

Esempio di conservazione dei dati

La tabella seguente mostra come i dati eliminati o modificati si spostano tra le finestre di conservazione dello spazio di archiviazione. Questo esempio mostra una situazione in cui lo spazio di archiviazione attivo totale è di 200 GiB e 50 GiB vengono eliminati con una finestra di spostamento cronologico di sette giorni:

Giorno 0 Giorno 1 Giorno 2 Giorno 3 Giorno 4 Giorno 5 Giorno 6 Giorno 7 Giorno 8 Giorno 9 Giorno 10 Giorno 11 Giorno 12 Giorno 13 Giorno 14 Giorno 15
Spazio di archiviazione attivo 200 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150
Spazio di archiviazione per lo spostamento cronologico 50 50 50 50 50 50 50
Spazio di archiviazione fail-safe 50 50 50 50 50 50 50

L'eliminazione dei dati dallo spazio di archiviazione fisico a lungo termine funziona allo stesso modo.

Limitazioni

Il recupero dei dati con lo spostamento cronologico è soggetto alle seguenti limitazioni:

Passaggi successivi