Divisor personalizado

O separador personalizado foi concebido para ser usado para dividir documentos compostos (documentos constituídos por várias classes) num número de documentos de classe única através da identificação de cada documento lógico. Por exemplo, um pacote de hipoteca contém várias classes, como candidatura, validação de rendimentos e identificação com foto. Os processadores de divisão personalizados, para serem usados, são preparados desde o início com os seus próprios documentos e classes personalizadas.

Descrição e utilização do separador

Cria divisores personalizados especificamente adequados aos seus documentos e formados e avaliados com os seus dados. Este processador identifica classes de documentos a partir de um conjunto de classes definido pelo utilizador. Em seguida, pode usar este processador preparado em documentos de produção. Normalmente, usaria um separador personalizado em ficheiros compostos por diferentes tipos de documentos lógicos e, em seguida, usaria a identificação de classe de cada um para transmitir os documentos a um processador de extração adequado para extrair as entidades.

Uma vez que os modelos de ML não são perfeitos e têm uma determinada taxa de erro, e uma vez que os erros na divisão são normalmente muito problemáticos (uma divisão incorreta torna dois documentos incorretos e causa erros de extração), uma prática recomendada é ter sempre um passo de revisão humana após a previsão de divisão, mas antes da divisão real do ficheiro. Com base nos requisitos empresariais, existem alternativas à revisão humana constante:

  • Use as classificações de confiança na previsão para decidir se ignora a revisão humana (se forem suficientemente elevadas). Esse limite da pontuação de confiança deve ser determinado com base nos dados do histórico sobre as taxas de erro em determinadas pontuações de confiança. Esta deve ser uma decisão empresarial baseada na tolerância a erros do processo empresarial e no requisito de ignorar a revisão humana.
  • Em alguns exemplos de utilização, os documentos divididos podem ser encaminhados diretamente para o extrator adequado de acordo com a classe prevista. Em seguida, se a extração estiver incompleta ou tiver pontuações de confiança baixas, isole os documentos divididos e acione o documento composto original e a decisão de divisão para revisão. Isto tem requisitos de fluxo de trabalho bastante complexos.

Crie um divisor personalizado na Google Cloud consola

Este guia de início rápido descreve como usar a Document AI para criar e formar um separador personalizado que divide e classifica documentos de aprovisionamento. A maior parte da preparação dos documentos está concluída, para que se possa concentrar na criação de um separador personalizado.

Um fluxo de trabalho típico para criar e usar um divisor personalizado é o seguinte:

  1. Crie um separador personalizado na IA Documentos.
  2. Crie um conjunto de dados com um contentor do Cloud Storage vazio.
  3. Defina e crie o esquema do processador (classes).
  4. Importar documentos.
  5. Atribua documentos aos conjuntos de teste e de preparação.
  6. Anote documentos manualmente na IA Documentos ou com tarefas de etiquetagem.
  7. Prepare o processador.
  8. Avalie o processador.
  9. Implemente o processador.
  10. Teste o processador.
  11. Use o processador nos seus documentos.

Se tiver os documentos em pastas separadas por turma, pode ignorar o passo 6 especificando a turma no momento da importação.


Para seguir orientações passo a passo para esta tarefa diretamente na Google Cloud consola, clique em Orientar-me:

Visita guiada


Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Crie um processador

    1. Na Google Cloud consola, na secção Document AI, aceda à página Workbench.

      Workbench

    2. Para o divisor de documentos personalizado, selecione Criar processador. custom-splitter-1

    3. No menu Criar processador, introduza um nome para o processador, como my-custom-document-splitter.

      custom-splitter-2

    4. Selecione a região mais próxima de si.

    5. Selecione Criar. É apresentado o separador Detalhes do processador.

    Configure o conjunto de dados

    Para preparar este novo processador, tem de criar um conjunto de dados com dados de preparação e de teste para ajudar o processador a identificar os documentos que quer dividir e classificar.

    Este conjunto de dados requer uma nova localização. Pode ser um contentor do Cloud Storage ou uma pasta vazia, ou pode permitir uma localização gerida pela Google (interna).

    • Se quiser o armazenamento gerido pela Google, selecione essa opção.
    • Se quiser usar o seu próprio armazenamento para usar chaves de encriptação geridas pelo cliente (CMEK), selecione Vou especificar a minha própria localização de armazenamento e siga o procedimento posterior.

    custom-splitter-3

    Crie um contentor do Cloud Storage para o conjunto de dados

    1. Aceda ao separador Formar do processador.

    2. Selecione Definir localização do conjunto de dados. É-lhe pedido que selecione ou crie um contentor ou uma pasta do Cloud Storage vazios.

      custom-splitter-4

    3. Selecione Procurar para abrir Selecionar pasta.

    4. Selecione o ícone Criar um novo contentor e siga as instruções para criar um novo contentor. Depois de criar o contentor, é apresentada a página Selecionar pasta. Para mais informações sobre como criar um contentor do Cloud Storage, consulte o artigo Contentores do Cloud Storage.

    5. Na página Selecionar pasta do seu contentor, escolha o botão Selecionar na parte inferior da caixa de diálogo.

      custom-splitter-5

    Certifique-se de que o caminho de destino está preenchido com o nome do contentor que selecionou. Selecione Criar conjunto de dados. A criação do conjunto de dados pode demorar até vários minutos.

    Defina o esquema do processador

    Pode criar o esquema do processador antes ou depois de importar documentos para o conjunto de dados. O esquema fornece etiquetas que usa para anotar documentos.

    1. No separador Preparar, selecione Editar esquema na parte inferior esquerda. É aberta a página Gerir etiquetas.

    2. Selecione Criar etiqueta.

    3. Introduza o nome da etiqueta. Selecione Criar. Consulte o artigo Defina o esquema do processador para ver instruções detalhadas sobre como criar e editar um esquema.

    4. Crie cada uma das seguintes etiquetas para o esquema do processador.

      • bank_statement
      • form_1040
      • form_w2
      • form_w9
      • paystub
    5. Selecione Guardar quando as etiquetas estiverem concluídas.

      custom-splitter-6

    Importe um documento não etiquetado para um conjunto de dados

    O passo seguinte é começar a importar documentos não etiquetados para o conjunto de dados e etiquetá-los. Uma alternativa recomendada é importar documentos organizados em pastas por turma, se disponíveis.

    Se estiver a trabalhar no seu próprio projeto, determina como etiquetar os dados. Consulte as Opções de etiquetagem.

    Os processadores personalizados da IA Documental requerem um mínimo de 10 documentos nos conjuntos de preparação e de teste, juntamente com 10 instâncias de cada etiqueta em cada conjunto. Recomendamos, pelo menos, 50 documentos em cada conjunto, com 50 instâncias de cada etiqueta para um melhor desempenho. Em geral, mais dados de preparação produzem uma maior precisão.

    1. No separador Formar, selecione Importar documentos.

      custom-splitter-7

    2. Para este exemplo, introduza este caminho em Caminho de origem. Este ficheiro contém um PDF de documento.

      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-Unlabeled
      
    3. Defina a Etiqueta do documento como Nenhuma.

    4. Defina o menu pendente Divisão do conjunto de dados para Não atribuído.

      Por predefinição, o documento nesta pasta não recebe uma etiqueta nem é atribuído ao conjunto de testes ou de preparação.

    5. Selecione Importar. A IA Documental lê os documentos do contentor para o conjunto de dados. Não modifica o contentor de importação nem lê a partir do contentor após a conclusão da importação.

    Quando importa documentos, pode atribuí-los opcionalmente ao conjunto de Formação ou Teste no momento da importação, ou aguardar para os atribuir mais tarde.

    Se quiser eliminar um ou mais documentos que importou, selecione-os no separador Formar e selecione Eliminar.

    Para mais informações sobre a preparação dos dados para importação, consulte o guia de preparação de dados.

    Opcional: etiquete documentos em lote na importação

    Pode etiquetar todos os documentos que se encontram num diretório específico na importação para poupar tempo com a etiquetagem. Se tiver os seus documentos de preparação organizados por classe em pastas, pode usar o campo Etiqueta do documento para especificar a classe desses documentos e evitar a etiquetagem manual de cada documento.

    custom-splitter-8

    Na imagem, Bank_statements e Invoice são etiquetas definidas disponíveis (classes de documentos) que pode selecionar. Em alternativa, pode usar CREATE LABEL e definir uma nova classe.

    1. Clique em Importar documentos.
    2. Introduza o seguinte caminho em Caminho de origem. Este contentor contém documentos não etiquetados no formato PDF.

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel

    3. Na lista Divisão de dados, selecione Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de preparação e 20% no conjunto de testes.

    4. Na secção Aplicar etiquetas, selecione Escolher etiqueta.

    5. Para estes documentos de exemplo, selecione Outro.

    6. Clique em Importar e aguarde que os documentos sejam importados. Pode sair desta página e voltar mais tarde.

    Etiquete um documento

    O processo de aplicação de etiquetas a um documento é conhecido como anotação.

    1. Regresse ao separador Formar e selecione um documento para abrir a consola de Gestão de etiquetas.

    2. Este documento contém vários grupos de páginas que têm de ser identificados e etiquetados. Primeiro, tem de identificar os pontos de divisão. Mova o rato entre as páginas 1 e 2 na vista de imagem e selecione o símbolo +.

      custom-splitter-9

    3. Crie pontos de divisão antes dos seguintes números de páginas: 2, 3, 4 e 5.

      A consola deve ter o seguinte aspeto quando terminar. custom-splitter-10

    4. No menu pendente Tipo de documento, selecione a etiqueta adequada para cada grupo de páginas.

      Página(s) Tipo de documento
      1 paystub
      2 form_w9
      3 bank_statement
      4 form_w2
      5 e 6 form_1040

      O documento etiquetado deve ter o seguinte aspeto quando estiver concluído: custom-splitter-11

    5. Selecione Marcar como etiquetado quando terminar de anotar o documento.

      No separador Preparar, o painel do lado esquerdo mostra que 1 documento foi etiquetado.

    Atribua o documento anotado ao conjunto de preparação

    Agora que etiquetou este documento de exemplo, pode atribuí-lo ao conjunto de preparação.

    1. No separador Treinar, selecione a caixa de verificação Selecionar tudo.

    2. Na lista Atribuir ao conjunto, selecione Formação.

    No painel do lado esquerdo, pode ver que 1 documento foi atribuído ao conjunto de dados de treino.

    Importe dados com etiquetagem em lote

    Em seguida, importa ficheiros PDF não etiquetados que estão ordenados em diferentes pastas do Cloud Storage pelo respetivo tipo. A etiquetagem em lote ajuda a poupar tempo na etiquetagem, atribuindo uma etiqueta no momento da importação com base no caminho.

    1. No separador Formar, selecione Importar documentos.

    2. Introduza o seguinte caminho em Caminho de origem. Esta pasta contém PDFs de extratos de conta.

      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/bank-statement
      
    3. Definir a Etiqueta do documento como bank_statement.

    4. No menu Divisão do conjunto de dados, defina a opção como Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de dados de treino e 20% no conjunto de dados de teste.

    5. Selecione Adicionar outra pasta para adicionar mais pastas.

    6. Repita os passos anteriores com os seguintes caminhos e etiquetas de documentos:

      Caminho do contentor Etiqueta do documento
      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/1040 form_1040
      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w2 form_w2
      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w9 form_w9
      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/paystub paystub

      A consola deve ter este aspeto quando estiver concluída: custom-splitter-12

    7. Selecione Importar. A importação demora vários minutos.

    Quando a importação estiver concluída, encontre os documentos no separador Formar.

    Importe dados pré-etiquetados

    Neste guia, são fornecidos dados pré-etiquetados no formato Document como ficheiros JSON.

    Este é o mesmo formato que a IA Documentos produz quando processa um documento, etiqueta com intervenção humana ou exporta um conjunto de dados.

    1. No separador Formar, selecione Importar documentos.

    2. Introduza o seguinte caminho em Caminho de origem.

      cloud-samples-data/documentai/Custom/Lending-Splitter/JSON-Labeled
      
    3. Defina a Etiqueta do documento como Nenhuma.

    4. Defina o menu pendente Divisão do conjunto de dados como Divisão automática.

    5. Selecione Importar.

    Quando a importação estiver concluída, encontre os documentos no separador Formar.

    Prepare o processador

    Agora que importou os dados de teste e preparação, pode preparar o processador. Uma vez que a preparação pode demorar várias horas, certifique-se de que configurou o processador com os dados e as etiquetas adequados antes de iniciar a preparação.

    1. Selecione Formar nova versão.

    2. No campo Nome da versão, introduza um nome para esta versão do processador, como my-cds-version-1.

    3. (Opcional) Selecione Ver estatísticas das etiquetas para encontrar informações sobre as etiquetas dos documentos. Isto pode ajudar a determinar a sua cobertura. Selecione Fechar para regressar à configuração da preparação.

      custom-splitter-13

    4. Selecione Iniciar preparação Pode verificar o estado no painel do lado direito.

    Implemente a versão do processador

    1. Após a conclusão da preparação, navegue para o separador Gerir versões. Pode ver detalhes sobre a versão que acabou de preparar.

    2. Selecione os três pontos verticais à direita da versão que quer implementar e selecione Implementar versão.

    3. Selecione Implementar na janela de pop-up.

      A implementação demora alguns minutos a ser concluída.

    Avalie e teste o processador

    1. Após a conclusão da implementação, navegue para o separador Avaliar e testar.

      Nesta página, pode ver as métricas de avaliação, incluindo a pontuação F1, a precisão e a capacidade de memorização para o documento completo e as etiquetas individuais. Para mais informações sobre a avaliação e as estatísticas, consulte o artigo Avalie o processador.

    2. Transferir um documento que não tenha sido usado em testes ou formação anteriores para que o possa usar para avaliar a versão do processador. Se usar os seus próprios dados, usaria um documento reservado para este fim.

      Transferir PDF

    3. Selecione Carregar documento de teste e selecione o documento que acabou de transferir.

      É apresentada a página Análise de divisão personalizada. O resultado no ecrã demonstra o quão bem o documento foi dividido e classificado.

      A consola deve ter este aspeto quando estiver concluída: custom-splitter-14

      Também pode executar novamente a avaliação com um conjunto de testes ou uma versão do processador diferente.

    (Opcional) Importe dados com a etiquetagem automática

    Após a implementação de uma versão do processador preparada, pode usar a etiquetagem automática para poupar tempo na etiquetagem quando importar novos documentos.

    1. No separador Formar, selecione Importar documentos.

    2. Introduza o seguinte caminho em Caminho de origem. Esta pasta contém PDFs não etiquetados de vários tipos de documentos.

      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-AutoLabel
      
    3. Defina a Etiqueta do documento como Etiquetagem automática.

    4. Defina o menu pendente Divisão do conjunto de dados como Divisão automática.

    5. Na secção Etiquetagem automática, defina a Versão como a versão que treinou anteriormente.

      • Por exemplo: 2af620b2fd4d1fcf
    6. Selecione Importar e aguarde que os documentos sejam importados.

    7. Não pode usar documentos com etiquetagem automática para preparação ou testes sem os marcar como etiquetados. Aceda à secção Etiquetado automaticamente para ver os documentos etiquetados automaticamente.

    8. Selecione o primeiro documento para entrar na consola de etiquetagem.

    9. Valide a etiqueta para garantir que está correta e ajuste-a, se não estiver.

    10. Quando terminar, selecione Marcar como etiquetado.

    11. Repita a validação de etiquetas para cada documento com etiquetagem automática.

    12. Regresse à página Preparar e selecione Preparar nova versão para usar os dados para preparação.

    Use o processador

    Criou e preparou com êxito um processador de divisão personalizado.

    Pode gerir as versões do processador com preparação personalizada tal como qualquer outra versão do processador. Para mais informações, consulte o artigo Gerir versões do processador.

    Após a implementação, pode enviar um pedido de processamento ao seu processador personalizado, e a resposta pode ser processada da mesma forma que outros processadores divisores.

    Limpar

    Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.

    Para evitar custos Google Cloud desnecessários, use o Google Cloud console para eliminar o processador e o projeto se não precisar deles.

    Se criou um novo projeto para saber mais sobre o Document AI e já não precisar do projeto, elimine-o.

    Se usou um Google Cloud projeto existente, elimine os recursos que criou para evitar incorrer em cobranças na sua conta:

    1. No Google Cloud menu de navegação da consola, selecione Document AI e, de seguida, Os meus processadores.

    2. Selecione Mais ações na mesma linha do processador que quer eliminar.

    3. Selecione Eliminar processador, escreva o nome do processador e, de seguida, selecione Eliminar novamente para confirmar.

    O que se segue?