Nesta página, encontra respostas a perguntas frequentes (FAQ) sobre a utilização do Datastream. Estas Perguntas frequentes estão associadas a:
- Perguntas gerais sobre o Datastream e a captura de dados de alterações (CDC)
- Comportamento e limitações gerais das fontes
- Comportamento e limitações da origem do MySQL
- Comportamento e limitações da origem Oracle
- Comportamento e limitações da origem do PostgreSQL (incluindo o AlloyDB para PostgreSQL)
- Comportamento e limitações da origem do SQL Server
- Comportamento e limitações da origem do Salesforce
- Comportamento do destino do BigQuery
- Comportamento do destino do Cloud Storage
- Exemplos de utilização comuns da stream de dados
- Como o Datastream se integra com os Google Cloud serviços de dados
- Segurança e conetividade
- Monitorização do Datastream
- Preços
- Informações adicionais sobre a stream de dados
Perguntas gerais sobre o Datastream e a captura de dados de alterações (CDC)
Pergunta | Responder |
---|---|
O que é a stream de dados? | O Datastream é um serviço de replicação e captura de dados de alterações (CDC) sem servidor e fácil de usar. O Datastream permite a replicação perfeita de dados de origens de bases de dados relacionais, como o AlloyDB para PostgreSQL, o PostgreSQL, o MySQL, o SQL Server e o Oracle, bem como do Salesforce e do MongoDB, diretamente para o BigQuery. O Datastream oferece a escala, a velocidade, a segurança e a simplicidade de que as empresas modernas precisam. Com uma arquitetura sem servidor e de escala automática, o Datastream permite-lhe configurar um pipeline de ELT (extração, carregamento e transformação) para a replicação de dados de baixa latência, o que permite estatísticas quase em tempo real. O Datastream também tem a capacidade de sincronizar streams de dados em bases de dados e aplicações heterogéneas de forma fiável e com latência mínima. Pode integrar o serviço com modelos do Dataflow para replicar bases de dados no Cloud SQL ou no Spanner para sincronização de bases de dados, ou tirar partido da stream de eventos diretamente do Cloud Storage para implementar arquiteturas orientadas por eventos. |
Quais são os métodos através dos quais o Datastream transmite dados? | Uma stream de dados transmite dados de uma origem para um destino através de um dos dois métodos seguintes:
|
O que é o CDC? |
A CDC é uma abordagem à integração de dados que lhe permite integrar e analisar dados mais rapidamente, usando menos recursos do sistema. É um método para extrair apenas as alterações mais recentes (atualizações, inserções ou eliminações) de uma origem de dados, muitas vezes, através da leitura do registo de alterações que a origem mantém para a sua própria integridade transacional interna. A CDC é um mecanismo altamente eficiente para limitar o impacto na origem quando carrega novos dados em armazéns de dados operacionais e armazéns de dados, e elimina a necessidade de atualizações de carregamento em massa e janelas de processamento em lote inconvenientes, permitindo o carregamento incremental ou o streaming quase em tempo real de alterações de dados para um destino de dados. O CDC pode ser usado em muitos exemplos de utilização que derivam valor do acesso constante às alterações de dados à medida que ocorrem, como a análise, a sincronização de dados em sistemas distribuídos geograficamente e as arquiteturas orientadas por eventos. |
O que é o preenchimento? | Além das alterações contínuas, o fluxo de dados também usa o preenchimento para extrair todos os dados existentes de uma origem e, em seguida, transmitir os dados para um destino. Como resultado, o destino é "preenchido" com todos os dados do histórico da origem. Existem dois tipos de preenchimento:
|
Existem limitações que tem de considerar quando faz um preenchimento? |
Para obter informações sobre as restrições de preenchimento, consulte as páginas de limitações conhecidas para os respetivos tipos de origens:
|
Qual é a ordem recomendada para as operações de CDC e repreenchimento? | Na maioria dos casos, não existe nenhuma consideração especial. Quando o preenchimento é ativado numa stream, o Datastream executa o preenchimento e o CDC em simultâneo. Em alguns casos extremos, por exemplo, quando replica tabelas muito grandes que não podem ser preenchidas novamente com o Datastream, pode ter de carregar os dados para o BigQuery primeiro antes de iniciar a stream. |
Posso monitorizar o estado das operações de CDC e preenchimento? | Pode monitorizar o estado do preenchimento por objeto:
O estado do CDC é efetivamente o estado da stream. Se a operação de CDC falhar, toda a stream falha. Estão disponíveis métricas adicionais ao nível do objeto no Cloud Monitoring. Para mais informações, consulte a documentação do Cloud Monitoring. |
O que é uma stream de alterações em comparação com a replicação? | Uma stream de alterações é uma sequência de eventos que o Datastream emite para um destino para fins de consumo a jusante. O resultado de um fluxo de alterações escrito no Cloud Storage é um conjunto de ficheiros que contêm eventos do registo de alterações de uma tabela específica durante um período de tempo. Os eventos representam inserções, atualizações e eliminações nessa tabela, e os eventos podem ser consumidos e processados a jusante do Cloud Storage por serviços como o Dataflow para exemplos de utilização como arquiteturas orientadas por eventos. A replicação no contexto do fluxo de dados significa uma representação atualizada da tabela de origem no destino. Por exemplo, uma tabela no Oracle cujas alterações são replicadas continuamente para uma tabela do BigQuery, onde a tabela do BigQuery é mantida atualizada através das alterações transmitidas a partir da tabela do Oracle. A replicação tira partido dos fluxos de alterações consumindo cada evento de alteração e usando-o para atualizar o destino. A stream de dados permite a replicação direta no BigQuery e suporta destinos adicionais, como o Cloud SQL e o Spanner, através da integração com o Dataflow, tirando partido de modelos que extraem os eventos da stream de alterações do Cloud Storage e atualizam as tabelas de destino em conformidade. |
O fluxo de dados requer um agente na origem? | Não tem de instalar um agente na origem. O Datastream usa interfaces existentes (como o Oracle LogMiner) para obter os dados da origem. |
Quantas tabelas posso incluir numa única stream? | A stream de dados pode processar até 10 000 tabelas numa única stream. Não existe qualquer motivo técnico para dividir uma base de dados em vários streams, embora possam existir algumas considerações empresariais para usar streams diferentes para fluxos lógicos diferentes, por exemplo, ao replicar transações grandes de origens PostgreSQL. No entanto, cada stream adiciona carga à base de dados de origem. Este carregamento é insignificante para a CDC, mas pode ser significativo para o preenchimento. |
E quanto ao impacto no desempenho da utilização do Datastream numa base de dados de produção? |
A CDC é um mecanismo altamente eficiente para limitar o impacto na origem quando novos dados são carregados em armazéns de dados e repositórios de dados de destino. A CDC também elimina a necessidade de atualizações de carregamento em massa e janelas de processamento em lote inconvenientes, permitindo o carregamento incremental ou o streaming quase em tempo real de alterações de dados para um destino. Além disso, o Datastream minimiza o impacto de um preenchimento inicial limitando o número de tarefas de preenchimento simultâneas e oferecendo-lhe o controlo para decidir que objetos preencher e quando o fazer. |
Pode copiar os ficheiros de registo da origem para o Google Cloud? | Não. O Datastream consulta os registos diretamente no servidor da base de dados e apenas as alterações às tabelas especificadas são escritas no destino. |
O fluxo de dados também pode transferir dados do histórico? | Sim. Por predefinição, o Datastream recebe todos os dados do histórico das tabelas da base de dados da origem que especificar, em paralelo com o fluxo de CDC. A stream de dados oferece-lhe a flexibilidade de obter dados do histórico de algumas ou de todas as tabelas da base de dados na sua origem. Além disso, quando configura a stream, pode optar por desativar o preenchimento histórico. |
O Datastream garante a entrega exatamente uma vez? | Não. O Datastream é uma entrega "pelo menos uma vez". Os metadados adicionais que o Datastream escreve em cada evento podem ser usados para remover dados duplicados. |
O Datastream consegue processar bases de dados encriptadas? | Sim. |
O Datastream pode transmitir tabelas e colunas específicas de uma origem? | Sim. Com o Datastream, pode especificar listas de inclusão e exclusão para tabelas e esquemas, de modo a transmitir apenas os dados que quer de uma origem para um destino. Para as tabelas incluídas, pode excluir colunas específicas das tabelas para ajustar ainda mais os dados que quer transmitir para o destino. No entanto, não é possível replicar as vistas materializadas. |
Como é que move uma stream para outro projeto ou região? |
|
Como é que o Datastream processa as transações não comprometidas nos ficheiros de registo da base de dados? | Quando os ficheiros de registo da base de dados contêm transações não comprometidas, se alguma transação for revertida, a base de dados reflete isto nos ficheiros de registo como operações de linguagem de manipulação de dados (DML) "inversas". Por exemplo, uma operação INSERT revertida tem uma operação DELETE correspondente. O fluxo de dados lê estas operações dos ficheiros de registo. |
Qual é a disponibilidade regional da stream de dados? | Para ver uma lista das regiões onde o fluxo de dados está disponível, consulte o artigo Listas de autorizações de IPs e regiões. |
Comportamento e limitações gerais das fontes
Pergunta | Responder |
---|---|
Que origens são suportadas pelo fluxo de dados? | O Datastream suporta o streaming de dados de origens Oracle, MySQL, PostgreSQL, AlloyDB para PostgreSQL, SQL Server, Salesforce (pré-visualização) e MongoDB, alojadas na nuvem e autogeridas. Para informações sobre versões específicas da origem, consulte as seguintes páginas:
|
O Datastream consegue processar bases de dados encriptadas? | Sim. |
Como é que o Datastream extrai dados das origens? | Para o MySQL, o Datastream processa o registo binário do MySQL para extrair eventos de alteração. Para o Oracle, o Datastream usa o LogMiner e as definições de registo suplementares para extrair dados dos registos de repetição do Oracle. Para o PostgreSQL e o AlloyDB para PostgreSQL, o Datastream baseia-se na funcionalidade de descodificação lógica do PostgreSQL. A descodificação lógica expõe todas as alterações confirmadas na base de dados e permite consumir e processar estas alterações. Para o SQL Server, o Datastream acompanha as alterações da linguagem de manipulação de dados (DML) através de registos de transações. |
Pode copiar ficheiros de registo diretamente de uma origem para o Google Cloud? | O fluxo de dados não copia a totalidade dos ficheiros de registo, mas consulta os ficheiros de registo diretamente a partir do servidor de base de dados e replica apenas as alterações das tabelas especificadas para o destino. |
Quais são as limitações dos dados que o Datastream pode tratar? |
Existem limitações gerais e limitações que se aplicam a origens de bases de dados específicas. As limitações gerais incluem:
Para limitações específicas da origem, consulte as seguintes páginas:
|
Que dados estão incluídos em todos os eventos gerados pelo fluxo de dados? | Cada evento gerado (para inserções, atualizações e eliminações) inclui a linha completa de dados da origem, com o tipo de dados e o valor de cada coluna. Cada evento também inclui metadados de eventos que podem ser usados para estabelecer a ordem e garantir a entrega exatamente uma vez. |
O Datastream garante a ordenação? | Embora o fluxo de dados não garanta a ordenação, fornece metadados adicionais para cada evento. Estes metadados podem ser usados para garantir a consistência final no destino. Geralmente, a consistência eventual pode ser alcançada num período de 1 hora, consoante a origem, a taxa e a frequência das alterações, bem como outros parâmetros. |
O Datastream garante a entrega exatamente uma vez? | O fluxo de dados é de entrega pelo menos uma vez. Pode eliminar dados duplicados usando metadados adicionais que o Datastream escreve em cada evento. |
Como é que o Datastream representa os tipos de dados da origem para utilização no processamento a jusante? | Ao escrever num destino sem esquema, como o Cloud Storage, o Datastream simplifica o processamento a jusante dos dados em várias origens, normalizando os tipos de dados em todas as origens. O Datastream usa o tipo de dados de origem original (por exemplo, um tipo Os tipos unificados representam um superconjunto sem perdas de todos os tipos de origens possíveis, e a normalização significa que os dados de diferentes origens podem ser processados com o mínimo esforço e consultados a jusante de forma independente da origem. |
Como é que o Datastream processa as alterações de estrutura (esquema) na origem? | O fluxo de dados obtém o esquema da origem periodicamente. Os esquemas são armazenados no registo de esquemas interno do fluxo de dados e cada evento faz referência ao esquema no momento em que foi gerado. Isto permite que o fluxo de dados acompanhe as alterações ao esquema e se ajuste com base nessas alterações, garantindo que todos os dados são transmitidos e carregados corretamente para o destino. No entanto, entre as obtenções de esquemas, algumas alterações de esquemas podem não ser detetadas, o que pode causar discrepâncias nos dados. |
Eliminei (larguei) uma coluna na minha base de dados de origem, mas esta continua a aparecer no destino. Porquê? | O fluxo de dados não elimina colunas no destino. Tem de eliminar as colunas manualmente. Este comportamento é intencional porque, em alguns casos, pode preferir manter a coluna eliminada no destino. Por exemplo, o Datastream interpreta a mudança do nome de uma coluna na origem como a eliminação de uma coluna e a adição de outra. Neste caso, não quer perder a coluna original no destino. |
A transmissão não é iniciada devido a uma falha de validação, mas considero que se trata de um erro ou quero tentar executar a transmissão independentemente disso. Como posso ultrapassar esta validação? | Pode iniciar a stream através da API adicionando a flag force=true e ignorando as verificações de validação. Tenha em atenção que ignorar as validações não garante que a stream vai poder ser executada e pode continuar a falhar se a base de dados não tiver a configuração ou as autorizações necessárias.
|
Posso reiniciar uma stream com falhas? | Pode corrigir uma stream com o estado Também pode recuperar uma stream com o estado |
O Datastream bloqueia tabelas de base de dados? | Não. O fluxo de dados não precisa de bloquear as tabelas. |
As páginas de limitações de cada origem especificam que os streams podem ter até 10 000 tabelas. Isto significa que o Datastream não pode executar operações de CDC em paralelo para mais de 10 000 tabelas em simultâneo? | Não. O limite mencionado é por stream. Pode ter várias streams com um número total de tabelas superior a 10 000. |
Comportamento e limitações da origem do MySQL
Pergunta | Responder |
---|---|
Como é que o Datastream extrai dados do MySQL? | O Datastream usa o registo binário do MySQL para extrair os eventos de alteração do MySQL |
O Datastream suporta instâncias de réplica de leitura do Cloud SQL para MySQL? | Sim, o Datastream suporta instâncias de réplica de leitura para o Cloud SQL para MySQL nas versões 5.7 e 8.0. Pode ativar o registo binário nestas instâncias. Para o fazer, execute o seguinte comando da CLI gcloud: gcloud sql instances patch INSTANCE_NAME -- enable-bin-log Para mais informações, consulte o artigo Registo binário em réplicas de leitura. |
Que autorizações mínimas são necessárias ao Datastream para replicar dados de uma base de dados MySQL de origem? | Tem de conceder as seguintes autorizações ao utilizador do Datastream para replicar dados de uma base de dados MySQL:
|
O Datastream suporta a compressão de registos binários? | Não, o fluxo de dados não suporta a compressão de eventos de transações com a compressão de transações de registo binário. Desative a compressão de transações do registo binário para usar a funcionalidade de captura de dados de alterações para o MySQL no Datastream. |
A sua organização não permite a concessão da autorização SELECT em todas as respetivas tabelas e bases de dados. Pode continuar a usar o Datastream? |
Pode conceder a autorização GRANT SELECT ON DATABASE_NAME.TABLE_NAME TO USER_NAME@'%'; GRANT SELECT ON DATABASE_NAME.* TO USER_NAME@'%'; Substitua o seguinte:
Se quiser restringir as autorizações a um nome de anfitrião específico, substitua o caráter |
Comportamento e limitações da origem Oracle
Pergunta | Responder |
---|---|
Como é que o Datastream extrai dados do Oracle? | O fluxo de dados usa o Oracle LogMiner para extrair os dados dos registos de repetição da Oracle. |
O Datastream requer uma licença do GoldenGate da Oracle? | Não. O Datastream não requer uma licença do GoldenGate porque usa o Oracle LogMiner para ler os dados dos registos de repetição da base de dados. |
O que acontece quando o Oracle LogMiner deixar de ser suportado? | O Oracle LogMiner continua a ser suportado em todas as versões do Oracle geralmente disponíveis, e o Datastream vai continuar a suportar o LogMiner em todas as versões futuras. A Oracle descontinuou o apoio técnico para a opção CONTINUOUS_MINE do LogMiner. No entanto, esta opção não é usada pelo Datastream, pelo que esta descontinuação não tem impacto no Datastream. |
O Datastream suporta a encriptação de dados em trânsito a partir de bases de dados Oracle? | O fluxo de dados suporta a encriptação de dados em trânsito com base nos Oracle Net Services. A stream de dados é executada no modo |
O Datastream suporta a encriptação Secure Sockets Layer (SSL) e Transport Layer Security (TLS)? | Sim, o Datastream suporta o protocolo TCPS para ligações encriptadas com SSL/TLS a origens Oracle. |
O Datastream suporta a arquitetura multi-inquilino da Oracle, especificamente bases de dados de contentores (CDBs) e bases de dados conectáveis (PDBs)? | Sim, o Datastream suporta a arquitetura multi-inquilino da Oracle (CDB/PDB). No entanto, só pode replicar uma única base de dados conectável numa stream. |
A sua organização não permite a concessão da autorização GRANT SELECT ANY TABLE . Pode continuar a usar o Datastream? |
Se não conseguir conceder a autorização
Para transmitir alterações através da stream de dados, também precisa de acesso de leitura a todas as tabelas incluídas na stream. Para iniciar a stream, ignore a validação através da API. Para mais informações, consulte o artigo Inicie uma stream. |
O Datastream suporta a replicação de instâncias de réplicas de leitura do Oracle? | A stream de dados suporta a replicação de instâncias de réplica de leitura do Oracle, desde que a instância esteja configurada de acordo com as diretrizes de configuração. |
O Datastream suporta bases de dados Oracle SCAN RAC? | Sim, funciona. No entanto, não pode estabelecer uma conetividade direta a bases de dados através da funcionalidade Single Client Access Name (SCAN) em ambientes Oracle Real Application Clusters (RAC) com o Datastream. Para ultrapassar esta limitação, ligue-se diretamente a um dos nós ou use o Oracle Connection Manager. Também pode criar uma configuração de conetividade privada através de soluções de proxy inverso, como o HAProxy. |
Comportamento e limitações da origem PostgreSQL
Pergunta | Responder |
---|---|
Como é que o Datastream extrai dados do PostgreSQL? | O fluxo de dados usa a funcionalidade de descodificação lógica do PostgreSQL para extrair os eventos de alteração do PostgreSQL |
O Datastream suporta a replicação a partir de origens do AlloyDB para PostgreSQL ou do AlloyDB Omni? | Sim. O Datastream suporta ambas as origens. Para ver informações sobre como configurar a base de dados AlloyDB for PostgreSQL de origem, consulte o artigo Configure uma base de dados AlloyDB for PostgreSQL. Para obter informações sobre a configuração da base de dados AlloyDB Omni de origem, consulte o artigo Configure uma base de dados PostgreSQL autogerida. |
O Datastream suporta a replicação a partir de uma instância de réplica de leitura do PostgreSQL? | Não, o Datastream não suporta a replicação de instâncias de réplicas de leitura para o PostgreSQL. |
O Datastream suporta a segurança ao nível da linha (RLS)? | O fluxo de dados não suporta a replicação de tabelas com RLS ativado. No entanto, pode ignorar esta limitação usando a cláusula BYPASSRLS :
ALTER USER USER_NAME BYPASSRLS; Substitua USER_NAME pelo nome do utilizador que o Datastream usa para estabelecer ligação à base de dados e para o qual quer ignorar as políticas de RLS. |
O Datastream suporta operações de CDC simultâneas quando faz a replicação a partir de uma origem PostgreSQL? | Não. A replicação do PostgreSQL baseia-se no conceito de slots de replicação, e os slots de replicação não suportam ligações simultâneas. Só pode existir uma tarefa de CDC a ler a partir do intervalo de replicação de cada vez. Por exemplo, se eliminar um grande número de registos da base de dados de origem, o espaço de replicação pode ficar sobrecarregado com eventos de eliminação. As alterações subsequentes à origem são atrasadas até que os eventos de eliminação já na fila do espaço de replicação sejam processados. Para obter informações sobre a abordagem sugerida ao replicar grandes quantidades de dados de transações, consulte o artigo Diagnosticar problemas. |
O Datastream suporta a encriptação Secure Sockets Layer (SSL) e Transport Layer Security (TLS)? | Sim, o fluxo de dados suporta ligações encriptadas com SSL/TLS. |
Comportamento e limitações da origem do SQL Server
Pergunta | Responder |
---|---|
Que edições do SQL Server são suportadas pelo Datastream? | O Datastream suporta versões de bases de dados do SQL Server que suportam a captura de dados de alterações. Para ver uma lista completa das versões e edições do SQL Server suportadas, consulte o artigo Versões. |
Como funciona a replicação de CDC do Datastream para origens do SQL Server? | O processo de carregamento de dados do fluxo de dados usa registos de transações ou tabelas de alterações, consoante a configuração da origem. Para mais informações, consulte o artigo Base de dados do SQL Server de origem. |
Quais são as autorizações mínimas de que o Datastream precisa para replicar dados de uma base de dados do SQL Server de origem? | Tem de conceder as seguintes funções e autorizações ao utilizador do Datastream para replicar dados de uma base de dados do SQL Server: Para o método CDC de tabelas de alterações:
Além disso, para o método CDC de registos de transações:
Para informações detalhadas sobre a configuração da sua origem, consulte as páginas de configuração respetivas para o seu tipo de base de dados. |
Por que motivo precisa de configuração, como alterar os intervalos de sondagem e configurar uma salvaguarda de truncagem, quando usa registos de transações? | Quando replica dados de uma origem do SQL Server através de registos de transações, se um registo for truncado antes de o Datastream o ler, ocorre uma perda de dados. A alteração dos intervalos de sondagem e a configuração da salvaguarda de truncagem são opcionais, mas oferecem uma camada adicional de proteção para garantir que a stream de dados consegue ler os dados, mesmo em cenários em que ocorrem problemas de inatividade ou de conetividade. Para mais informações, consulte o artigo Configure uma base de dados SQL Server de origem. |
Que método de CDC selecionar quando replicar a partir de uma origem do SQL Server? | Pode selecionar um dos dois métodos de CDC disponíveis, com base na configuração da base de dados do SQL Server de origem:
Para mais informações, consulte o artigo Vista geral do SQL Server como origem. |
Comportamento e limitações da origem do Salesforce
Pergunta | Responder |
---|---|
O que é uma organização do Salesforce? | Uma organização do Salesforce, também denominada org, é a sua implementação dedicada do Salesforce, semelhante a uma instância de base de dados. Uma organização tem um conjunto definido de utilizadores licenciados e armazena todos os dados e aplicações de clientes. |
O que são objetos, registos e campos do Salesforce? | Um objeto é uma entidade de classe e é semelhante a uma tabela na nomenclatura de bases de dados relacionais. Podem ser padrão ou personalizados. Os objetos padrão estão incluídos no Salesforce por predefinição, enquanto os objetos personalizados são criados pelos utilizadores para armazenar dados específicos do respetivo exemplo de utilização. Um registo é uma instância específica de um objeto, semelhante a uma linha em bases de dados relacionais. Um campo é um atributo específico de um objeto, semelhante a uma coluna em bases de dados relacionais. |
Comportamento do destino do BigQuery
Pergunta | Responder |
---|---|
Como é que o Datastream e o BigQuery funcionam em conjunto para replicar alterações da base de dados de origem? | O Datastream lê continuamente a stream de alterações da base de dados de origem e faz stream dos eventos de inserção/atualização e eliminação para as tabelas de destino do BigQuery através da API Storage Write. Em seguida, o BigQuery aplica as alterações à tabela com base na configuração de obsolescência da tabela. |
Como são aplicadas as operações da linguagem de manipulação de dados (DML) no BigQuery? |
|
Como é que o Datastream e o BigQuery processam a ordenação de eventos? | O BigQuery usa os metadados dos eventos e um número de sequência de alterações (CSN) interno para aplicar os eventos à tabela pela ordem correta. Para mais informações sobre os metadados de eventos, consulte o artigo Eventos e streams. |
Como são calculados os custos do BigQuery quando usado com o Datastream? | Os custos do BigQuery são calculados e cobrados separadamente do Datastream. Para saber como controlar os custos do BigQuery, consulte os preços da CDC do BigQuery. |
Qual é o tamanho máximo de linhas que o Datastream suporta quando faz streaming de dados para o BigQuery? | O tamanho máximo de linhas suportado pelo Datastream é de 20 MB. |
Quando faz streaming para o BigQuery, as tabelas têm o prefixo . Pode alterar este comportamento para que as tabelas no BigQuery sigam a mesma estrutura que têm na base de dados de origem? |
Quando configura conjuntos de dados para um destino do BigQuery, cria um conjunto de dados para cada esquema ou um único conjunto de dados para todos os esquemas. Quando cria um conjunto de dados para cada esquema, cada esquema na origem é mapeado para um conjunto de dados no BigQuery, e todas as tabelas no esquema de origem são mapeadas para as tabelas no conjunto de dados. Quando seleciona a opção de conjunto de dados único para todos os esquemas, os nomes das tabelas têm o prefixo , de acordo com a convenção de nomenclatura de tabelas no BigQuery. |
A CDC consegue captar alterações ao esquema de origem, por exemplo, quando uma coluna é inserida ou eliminada na origem? Estas alterações são refletidas automaticamente nas tabelas já preenchidas nos conjuntos de dados do BigQuery de destino? | O fluxo de dados deteta automaticamente novas colunas e adiciona-as ao esquema de destino para as novas linhas, mas não para as que já foram replicadas para o destino. As colunas eliminadas são ignoradas e o Datastream preenche-as com valores NULL no destino. Em seguida, pode eliminar manualmente estas colunas no BigQuery. |
Comportamento do destino do Cloud Storage
Pergunta | Responder |
---|---|
Como são criados os ficheiros no Cloud Storage? | A stream de dados cria uma pasta para cada tabela. Em cada pasta, o fluxo de dados roda o ficheiro (ou cria um novo ficheiro) sempre que atinge o limite definido pelo utilizador de tamanho ou tempo. O fluxo de dados também roda o ficheiro sempre que é detetada uma alteração do esquema. O nome do ficheiro é composto por uma chave de esquema única (com base num hash do esquema), seguida da data/hora do primeiro evento no ficheiro. Por motivos de segurança, estes nomes de ficheiros não se destinam a ser lidos nem compreendidos por pessoas. |
Se os dados no Cloud Storage não estiverem ordenados, como é que os eventos podem ser reordenados antes de serem carregados no destino? | Cada evento contém vários campos de metadados que identificam de forma exclusiva a linha nos ficheiros de registo e permitem ordenar os eventos. Estes campos incluem: Para fontes Oracle:
Para origens do MySQL:
Para origens PostgreSQL:
Para mais informações sobre os campos de metadados, consulte o artigo Metadados específicos da origem. |
Se forem criados vários ficheiros para a mesma data/hora, em que ordem devem ser processados? | Uma vez que a ordenação dentro e entre ficheiros não é garantida, a melhor forma de determinar a ordem de processamento dos ficheiros para a origem é obter todos os eventos de todos os ficheiros para a data/hora específica e, em seguida, aplicar a ordenação através do método mencionado anteriormente nesta secção. |
Como são processadas as atualizações de chaves principais? Existem informações antes e depois no evento? | Quando a chave principal de uma linha muda, o Datastream gera dois eventos para a alteração: um UPDATE-DELETE e um UPDATE-INSERT . O evento UPDATE-DELETE representa os dados antes da atualização e UPDATE-INSERT representa os dados após a atualização. Para mais informações sobre metadados específicos da origem, consulte o artigo Eventos e streams. |
Qual é o tamanho máximo de linhas que o Datastream suporta quando faz streaming de dados para o Cloud Storage? | O tamanho máximo de linhas suportado pelo Datastream é de 100 MB. |
Exemplos de utilização
Pergunta | Responder |
---|---|
Quais são alguns exemplos de utilização comuns do Datastream? | O Datastream é um serviço de CDC e replicação, o que significa que é flexível em vários exemplos de utilização que podem beneficiar do acesso a dados de alterações de streaming contínuo. Os exemplos de utilização mais comuns para a stream de dados são:
|
Integrações
Pergunta | Responder |
---|---|
Como é que o Datastream se integra com os Google Cloud serviços de dados? | O fluxo de dados complementa e melhora o Google Cloud conjunto de dados, fornecendo replicação de dados de CDC de origens para vários Google Cloud serviços. Ao integrar-se perfeitamente com estes serviços, o Datastream enquadra-se no Google Cloud ecossistema mais amplo. O fluxo de dados integra-se com os seguintes serviços de dados:
|
O modelo do Datastream para o BigQuery no Dataflow tem limitações quanto ao número de operações da linguagem de manipulação de dados (DML)? | Não. O modelo usa a API de inserções por stream para carregar dados no BigQuery. Como resultado, não existe um limite para o número de operações DML. No entanto, aplicam-se algumas limitações de quota. |
Segurança e conetividade
Pergunta | Responder |
---|---|
O Datastream é um serviço seguro para dados confidenciais? | O fluxo de dados suporta várias configurações de conetividade seguras e privadas para proteger os dados em trânsito à medida que são transmitidos de uma origem para um destino. Após a replicação, os dados são encriptados por predefinição e tiram partido dos controlos de segurança do BigQuery ou do Cloud Storage. Todos os dados colocados em buffer pelo fluxo de dados são encriptados em repouso. |
Que opções de conetividade estão disponíveis para associar as suas origens ao Datastream? | Existem três tipos de métodos de conetividade que pode configurar:
|
Como posso limitar o tratamento de dados confidenciais pelo Datastream? |
A stream de dados permite-lhe especificar os elementos de dados específicos (esquemas, tabelas e colunas) da sua origem que quer transmitir para um destino e os elementos que quer excluir da transmissão. Os registos da base de dados podem conter dados de alterações de elementos que foram excluídos na definição do fluxo. Como não pode filtrar estes elementos na origem, o Datastream lê, mas ignora, todos os dados associados aos elementos. |
Como é que o Datastream mantém as credenciais da base de dados seguras? | Quer use o Secret Manager para armazenar a sua palavra-passe ou introduza a palavra-passe manualmente quando cria o seu perfil de ligação, todos os metadados do utilizador são encriptados em trânsito e em repouso, e a Google armazena-os nos respetivos sistemas de armazenamento proprietários. O acesso a estes metadados é monitorizado e auditado. |
Por que motivo a página Crie uma configuração de conetividade privada indica que tem de conceder a função roles/compute.networkAdmin à conta de serviço do Datastream para criar uma configuração de conetividade privada numa VPC partilhada? |
A função networkAdmin só é necessária para criar a interligação de VPCs. Depois de estabelecer a interligação, já não precisa da função. Se a sua organização não permitir a concessão da função networkAdmin à conta de serviço do fluxo de dados, crie uma função personalizada com as seguintes autorizações específicas:
Selecione intervalos de IP de forma dinâmica
Crie redes com peering
Reserve endereços IP
|
Posso usar o Private Service Connect para criar uma configuração de conetividade privada? | Não, o Datastream não suporta o Private Service Connect. |
Monitorize o Datastream
Pergunta | Responder |
---|---|
Como posso saber quando todos os meus dados do histórico foram copiados para o destino? | O fluxo de dados fornece informações sobre o respetivo estado atual nos ficheiros de registo. É criada uma entrada no registo para indicar quando o preenchimento de uma tabela é concluído. |
A latência aumenta ocasionalmente e, em seguida, diminui gradualmente ao longo do tempo. É normal isto acontecer? | A stream de dados é dimensionada automaticamente quando o débito de eventos gerado pela origem aumenta. No entanto, para proteger a base de dados de origem e o Datastream, existem limites para o número de ligações e processos simultâneos que o Datastream pode abrir em qualquer altura. Os picos temporários na latência são esperados quando existe um aumento significativo no débito de eventos e espera-se que diminuam gradualmente à medida que o registo pendente de eventos é processado. |
Preços
Pergunta | Responder |
---|---|
Qual é o preço do Datastream? | O Datastream tem um preço baseado no volume (GB) de dados processados a partir da sua origem para um destino. Para saber mais sobre as informações de preços do Datastream, consulte Preços. |
Como é calculado o tamanho dos dados? | A faturação é calculada com base na dimensão dos dados processados pelo Datastream. O Datastream cobra apenas os dados transmitidos para o destino. |
Se usar o Datastream com o BigQuery ou o Dataflow, o que paga? | Cada serviço tem um preço e é cobrado separadamente. |
Informações adicionais
Pergunta | Responder |
---|---|
E se tiver mais perguntas ou problemas com a utilização do Datastream? | A equipa de apoio técnico da Google pode fornecer apoio técnico se tiver problemas com a utilização do fluxo de dados. Além disso, o guia de resolução de problemas aborda problemas comuns que pode encontrar ao usar o Datastream. |
O que se segue?
- Saiba mais sobre o Datastream.
- Saiba mais sobre os principais conceitos e funcionalidades da stream de dados.
- Saiba mais sobre as origens suportadas pelo Datastream.
- Saiba mais sobre os destinos suportados pelo Datastream.