Divisor personalizado
O separador personalizado foi concebido para ser usado para dividir documentos compostos (documentos constituídos por várias classes) num número de documentos de classe única através da identificação de cada documento lógico. Por exemplo, um pacote de hipoteca contém várias classes, como candidatura, validação de rendimentos e identificação com foto. Os processadores de divisão personalizados, para serem usados, são preparados desde o início com os seus próprios documentos e classes personalizadas.
Descrição e utilização do separador
Cria divisores personalizados especificamente adequados aos seus documentos e formados e avaliados com os seus dados. Este processador identifica classes de documentos a partir de um conjunto de classes definido pelo utilizador. Em seguida, pode usar este processador preparado em documentos de produção. Normalmente, usaria um separador personalizado em ficheiros compostos por diferentes tipos de documentos lógicos e, em seguida, usaria a identificação de classe de cada um para transmitir os documentos a um processador de extração adequado para extrair as entidades.
Uma vez que os modelos de ML não são perfeitos e têm uma determinada taxa de erro, e uma vez que os erros na divisão são normalmente muito problemáticos (uma divisão incorreta torna dois documentos incorretos e causa erros de extração), uma prática recomendada é ter sempre um passo de revisão humana após a previsão de divisão, mas antes da divisão real do ficheiro. Com base nos requisitos empresariais, existem alternativas à revisão humana constante:
- Use as classificações de confiança na previsão para decidir se ignora a revisão humana (se forem suficientemente elevadas). Esse limite da pontuação de confiança deve ser determinado com base nos dados do histórico sobre as taxas de erro em determinadas pontuações de confiança. Esta deve ser uma decisão empresarial baseada na tolerância a erros do processo empresarial e no requisito de ignorar a revisão humana.
- Em alguns exemplos de utilização, os documentos divididos podem ser encaminhados diretamente para o extrator adequado de acordo com a classe prevista. Em seguida, se a extração estiver incompleta ou tiver pontuações de confiança baixas, isole os documentos divididos e acione o documento composto original e a decisão de divisão para revisão. Isto tem requisitos de fluxo de trabalho bastante complexos.
Crie um divisor personalizado na Google Cloud consola
Este guia de início rápido descreve como usar a Document AI para criar e formar um separador personalizado que divide e classifica documentos de aprovisionamento. A maior parte da preparação dos documentos está concluída, para que se possa concentrar na criação de um separador personalizado.
Um fluxo de trabalho típico para criar e usar um divisor personalizado é o seguinte:
- Crie um separador personalizado na IA Documentos.
- Crie um conjunto de dados com um contentor do Cloud Storage vazio.
- Defina e crie o esquema do processador (classes).
- Importar documentos.
- Atribua documentos aos conjuntos de teste e de preparação.
- Anote documentos manualmente na IA Documentos ou com tarefas de etiquetagem.
- Prepare o processador.
- Avalie o processador.
- Implemente o processador.
- Teste o processador.
- Use o processador nos seus documentos.
Se tiver os documentos em pastas separadas por turma, pode ignorar o passo 6 especificando a turma no momento da importação.
Para seguir orientações passo a passo para esta tarefa diretamente na Google Cloud consola, clique em Orientar-me:
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. Na Google Cloud consola, na secção Document AI, aceda à página Workbench.
Para o divisor de documentos personalizado, selecione
Criar processador .No menu Criar processador, introduza um nome para o processador, como
my-custom-document-splitter
.Selecione a região mais próxima de si.
Selecione Criar. É apresentado o separador Detalhes do processador.
- Se quiser o armazenamento gerido pela Google, selecione essa opção.
- Se quiser usar o seu próprio armazenamento para usar chaves de encriptação geridas pelo cliente (CMEK), selecione Vou especificar a minha própria localização de armazenamento e siga o procedimento posterior.
Aceda ao separador
Formar do processador.Selecione Definir localização do conjunto de dados. É-lhe pedido que selecione ou crie um contentor ou uma pasta do Cloud Storage vazios.
Selecione Procurar para abrir Selecionar pasta.
Selecione o ícone Criar um novo contentor e siga as instruções para criar um novo contentor. Depois de criar o contentor, é apresentada a página Selecionar pasta. Para mais informações sobre como criar um contentor do Cloud Storage, consulte o artigo Contentores do Cloud Storage.
Na página Selecionar pasta do seu contentor, escolha o botão Selecionar na parte inferior da caixa de diálogo.
No separador Preparar, selecione
Editar esquema na parte inferior esquerda. É aberta a página Gerir etiquetas.Selecione
Criar etiqueta .Introduza o nome da etiqueta. Selecione Criar. Consulte o artigo Defina o esquema do processador para ver instruções detalhadas sobre como criar e editar um esquema.
Crie cada uma das seguintes etiquetas para o esquema do processador.
bank_statement
form_1040
form_w2
form_w9
paystub
Selecione
Guardar quando as etiquetas estiverem concluídas.No separador Formar, selecione
Importar documentos .Para este exemplo, introduza este caminho em
Caminho de origem . Este ficheiro contém um PDF de documento.cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-Unlabeled
Defina a
Etiqueta do documento como Nenhuma.Defina o menu pendente
Divisão do conjunto de dados para Não atribuído.Por predefinição, o documento nesta pasta não recebe uma etiqueta nem é atribuído ao conjunto de testes ou de preparação.
Selecione
Importar . A IA Documental lê os documentos do contentor para o conjunto de dados. Não modifica o contentor de importação nem lê a partir do contentor após a conclusão da importação.- Clique em Importar documentos.
Introduza o seguinte caminho em Caminho de origem. Este contentor contém documentos não etiquetados no formato PDF.
cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
Na lista Divisão de dados, selecione Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de preparação e 20% no conjunto de testes.
Na secção Aplicar etiquetas, selecione Escolher etiqueta.
Para estes documentos de exemplo, selecione Outro.
Clique em Importar e aguarde que os documentos sejam importados. Pode sair desta página e voltar mais tarde.
Regresse ao separador Formar e selecione
um documento para abrir a consola de Gestão de etiquetas.Este documento contém vários grupos de páginas que têm de ser identificados e etiquetados. Primeiro, tem de identificar os pontos de divisão. Mova o rato entre as páginas 1 e 2 na vista de imagem e selecione o símbolo
+ .Crie pontos de divisão antes dos seguintes números de páginas: 2, 3, 4 e 5.
A consola deve ter o seguinte aspeto quando terminar.
No
menu pendente Tipo de documento , selecione a etiqueta adequada para cada grupo de páginas.Página(s) Tipo de documento 1 paystub
2 form_w9
3 bank_statement
4 form_w2
5 e 6 form_1040
O documento etiquetado deve ter o seguinte aspeto quando estiver concluído:
Selecione
Marcar como etiquetado quando terminar de anotar o documento.No separador Preparar, o painel do lado esquerdo mostra que 1 documento foi etiquetado.
No separador Treinar, selecione a caixa de verificação
Selecionar tudo .Na lista
Atribuir ao conjunto , selecione Formação.No separador Formar, selecione
Importar documentos .Introduza o seguinte caminho em
Caminho de origem . Esta pasta contém PDFs de extratos de conta.cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/bank-statement
Definir a
Etiqueta do documento comobank_statement
.No menu
Divisão do conjunto de dados , defina a opção como Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de dados de treino e 20% no conjunto de dados de teste.Selecione
Adicionar outra pasta para adicionar mais pastas.Repita os passos anteriores com os seguintes caminhos e etiquetas de documentos:
Caminho do contentor Etiqueta do documento cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/1040
form_1040
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w2
form_w2
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w9
form_w9
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/paystub
paystub
A consola deve ter este aspeto quando estiver concluída:
Selecione
Importar . A importação demora vários minutos.No separador Formar, selecione
Importar documentos .Introduza o seguinte caminho em
Caminho de origem .cloud-samples-data/documentai/Custom/Lending-Splitter/JSON-Labeled
Defina a
Etiqueta do documento como Nenhuma.Defina o menu pendente
Divisão do conjunto de dados como Divisão automática.Selecione
Importar .Selecione
Formar nova versão .No campo
Nome da versão , introduza um nome para esta versão do processador, comomy-cds-version-1
.(Opcional) Selecione Ver estatísticas das etiquetas para encontrar informações sobre as etiquetas dos documentos. Isto pode ajudar a determinar a sua cobertura. Selecione Fechar para regressar à configuração da preparação.
Selecione
Iniciar preparação Pode verificar o estado no painel do lado direito.Após a conclusão da preparação, navegue para o separador
Gerir versões . Pode ver detalhes sobre a versão que acabou de preparar.Selecione os
três pontos verticais à direita da versão que quer implementar e selecione Implementar versão.Selecione
Implementar na janela de pop-up.A implementação demora alguns minutos a ser concluída.
Após a conclusão da implementação, navegue para o separador
Avaliar e testar .Nesta página, pode ver as métricas de avaliação, incluindo a pontuação F1, a precisão e a capacidade de memorização para o documento completo e as etiquetas individuais. Para mais informações sobre a avaliação e as estatísticas, consulte o artigo Avalie o processador.
Transferir um documento que não tenha sido usado em testes ou formação anteriores para que o possa usar para avaliar a versão do processador. Se usar os seus próprios dados, usaria um documento reservado para este fim.
Selecione
Carregar documento de teste e selecione o documento que acabou de transferir.É apresentada a página Análise de divisão personalizada. O resultado no ecrã demonstra o quão bem o documento foi dividido e classificado.
A consola deve ter este aspeto quando estiver concluída:
Também pode executar novamente a avaliação com um conjunto de testes ou uma versão do processador diferente.
No separador Formar, selecione
Importar documentos .Introduza o seguinte caminho em
Caminho de origem . Esta pasta contém PDFs não etiquetados de vários tipos de documentos.cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-AutoLabel
Defina a
Etiqueta do documento como Etiquetagem automática.Defina o menu pendente
Divisão do conjunto de dados como Divisão automática.Na secção Etiquetagem automática, defina a
Versão como a versão que treinou anteriormente.- Por exemplo:
2af620b2fd4d1fcf
- Por exemplo:
Selecione
Importar e aguarde que os documentos sejam importados.Não pode usar documentos com etiquetagem automática para preparação ou testes sem os marcar como etiquetados. Aceda à secção
Etiquetado automaticamente para ver os documentos etiquetados automaticamente.Selecione o primeiro documento para entrar na consola de etiquetagem.
Valide a etiqueta para garantir que está correta e ajuste-a, se não estiver.
Quando terminar, selecione
Marcar como etiquetado .Repita a validação de etiquetas para cada documento com etiquetagem automática.
Regresse à página Preparar e selecione Preparar nova versão para usar os dados para preparação.
No Google Cloud menu de navegação da consola, selecione Document AI e, de seguida, Os meus processadores.
Selecione
Mais ações na mesma linha do processador que quer eliminar.Selecione Eliminar processador, escreva o nome do processador e, de seguida, selecione Eliminar novamente para confirmar.
Crie um processador
Configure o conjunto de dados
Para preparar este novo processador, tem de criar um conjunto de dados com dados de preparação e de teste para ajudar o processador a identificar os documentos que quer dividir e classificar.
Este conjunto de dados requer uma nova localização. Pode ser um contentor do Cloud Storage ou uma pasta vazia, ou pode permitir uma localização gerida pela Google (interna).
Crie um contentor do Cloud Storage para o conjunto de dados
Certifique-se de que o caminho de destino está preenchido com o nome do contentor que selecionou. Selecione Criar conjunto de dados. A criação do conjunto de dados pode demorar até vários minutos.
Defina o esquema do processador
Pode criar o esquema do processador antes ou depois de importar documentos para o conjunto de dados. O esquema fornece etiquetas que usa para anotar documentos.
Importe um documento não etiquetado para um conjunto de dados
O passo seguinte é começar a importar documentos não etiquetados para o conjunto de dados e etiquetá-los. Uma alternativa recomendada é importar documentos organizados em pastas por turma, se disponíveis.
Se estiver a trabalhar no seu próprio projeto, determina como etiquetar os dados. Consulte as Opções de etiquetagem.
Os processadores personalizados da IA Documental requerem um mínimo de 10 documentos nos conjuntos de preparação e de teste, juntamente com 10 instâncias de cada etiqueta em cada conjunto. Recomendamos, pelo menos, 50 documentos em cada conjunto, com 50 instâncias de cada etiqueta para um melhor desempenho. Em geral, mais dados de preparação produzem uma maior precisão.
Quando importa documentos, pode atribuí-los opcionalmente ao conjunto de Formação ou Teste no momento da importação, ou aguardar para os atribuir mais tarde.
Se quiser eliminar um ou mais documentos que importou, selecione-os no separador Formar e selecione Eliminar.
Para mais informações sobre a preparação dos dados para importação, consulte o guia de preparação de dados.
Opcional: etiquete documentos em lote na importação
Pode etiquetar todos os documentos que se encontram num diretório específico na importação para poupar tempo com a etiquetagem. Se tiver os seus documentos de preparação organizados por classe em pastas, pode usar o campo Etiqueta do documento para especificar a classe desses documentos e evitar a etiquetagem manual de cada documento.
Na imagem, Bank_statements e Invoice são etiquetas definidas disponíveis (classes de documentos) que pode selecionar. Em alternativa, pode usar CREATE LABEL
e definir uma nova classe.
Etiquete um documento
O processo de aplicação de etiquetas a um documento é conhecido como anotação.
Atribua o documento anotado ao conjunto de preparação
Agora que etiquetou este documento de exemplo, pode atribuí-lo ao conjunto de preparação.
No painel do lado esquerdo, pode ver que 1 documento foi atribuído ao conjunto de dados de treino.
Importe dados com etiquetagem em lote
Em seguida, importa ficheiros PDF não etiquetados que estão ordenados em diferentes pastas do Cloud Storage pelo respetivo tipo. A etiquetagem em lote ajuda a poupar tempo na etiquetagem, atribuindo uma etiqueta no momento da importação com base no caminho.
Quando a importação estiver concluída, encontre os documentos no separador Formar.
Importe dados pré-etiquetados
Neste guia, são fornecidos dados pré-etiquetados no formato Document
como ficheiros JSON.
Este é o mesmo formato que a IA Documentos produz quando processa um documento, etiqueta com intervenção humana ou exporta um conjunto de dados.
Quando a importação estiver concluída, encontre os documentos no separador Formar.
Prepare o processador
Agora que importou os dados de teste e preparação, pode preparar o processador. Uma vez que a preparação pode demorar várias horas, certifique-se de que configurou o processador com os dados e as etiquetas adequados antes de iniciar a preparação.
Implemente a versão do processador
Avalie e teste o processador
(Opcional) Importe dados com a etiquetagem automática
Após a implementação de uma versão do processador preparada, pode usar a etiquetagem automática para poupar tempo na etiquetagem quando importar novos documentos.
Use o processador
Criou e preparou com êxito um processador de divisão personalizado.
Pode gerir as versões do processador com preparação personalizada tal como qualquer outra versão do processador. Para mais informações, consulte o artigo Gerir versões do processador.
Após a implementação, pode enviar um pedido de processamento ao seu processador personalizado, e a resposta pode ser processada da mesma forma que outros processadores divisores.
Limpar
Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.
Para evitar custos Google Cloud desnecessários, use o Google Cloud console para eliminar o processador e o projeto se não precisar deles.
Se criou um novo projeto para saber mais sobre o Document AI e já não precisar do projeto, elimine-o.
Se usou um Google Cloud projeto existente, elimine os recursos que criou para evitar incorrer em cobranças na sua conta: