Extrair dados de documentos PDF para mapeamento de dados

MapForce: Extração de dados de documentos PDF

  • Defina facilmente regras para extrair dados de documentos PDF
  • Crie modelos para converter ficheiros PDF para outros formatos
  • Interface visual e intuitiva, com comandos acessíveis por cliques
  • Motor de sugestões avançado para extração automática
  • Extraia fragmentos, combine e compare informações
  • Reconhecimento ótico de caracteres para documentos PDF digitalizados
  • Ferramentas avançadas para extrair dados em tabelas
  • Organize facilmente os dados em grupos
  • Árvore de esquema para visualizar os resultados do modelo
  • Converta ficheiros PDF em formatos Excel, bases de dados, JSON, CSV e outros
  • Automatize a mapeamento de PDFs com o MapForce Server

Extração de dados de documentos PDF

Embora o formato PDF seja amplamente utilizado no mundo empresarial, os dados contidos em PDFs não estão facilmente disponíveis para serem integrados a outros sistemas. Os PDFs são geralmente concebidos para conteúdo legível por humanos, com formatação e layouts variáveis, o que torna a extração de dados estruturados extremamente difícil. Podem conter texto, imagens, tabelas e outros elementos, e os dados não estão organizados num formato legível por máquinas. As ferramentas típicas de extração de dados de PDFs podem não fornecer resultados precisos, especialmente para PDFs com layouts complexos. É aí que entra o MapForce PDF Extractor.

O MapForce PDF Extractor é uma ferramenta fácil de usar que permite definir rapidamente a estrutura de um documento PDF e extrair dados dele. Esses dados do PDF podem, posteriormente, ser acessados para transformação e conversão para outros formatos, como XML, JSON, bases de dados, Excel, e assim por diante, no MapForce. É a ferramenta ideal para facilitar a integração de dados PDF e projetos de ETL.

Utilizando ferramentas visuais no MapForce PDF Extractor, pode definir a estrutura de um documento PDF e extrair os seus dados de forma eficiente. O PDF Extractor é uma ferramenta altamente flexível que permite extrair apenas partes do texto, em vez de todo o documento, combinar informações de diferentes páginas do mesmo ficheiro PDF, dividir tabelas em linhas e organizar os dados em grupos.

Aceda aos dados em formato PDF para conversão utilizando o MapForce PDF Extractor

O design intuitivo e simples do MapForce PDF Extractor facilita a definição da estrutura de documentos PDF de forma visual, utilizando funcionalidades de seleção e arrastar e soltar. Finalmente, os grandes volumes de dados que antes estavam presos em documentos PDF estão agora disponíveis para serem convertidos para outros formatos.

Aprenda a utilizar o extrator de PDF do MapForce

Começando com o OCR

É fácil começar imediatamente a trabalhar com documentos PDF baseados em texto no extrator PDF. No entanto, muitos documentos PDF são, na verdade, documentos digitalizados, ou seja, apenas imagens. O suporte para OCR (reconhecimento ótico de caracteres) permite que o MapForce transforme essas imagens em texto selecionável e pesquisável, que pode ser extraído. Isto permite que o extrator PDF do MapForce processe uma grande variedade de formatos, incluindo documentos antigos, arquivos de papel digitalizados e formulários digitalizados ou manuscritos.

Quando executa o OCR num ficheiro PDF digitalizado no MapForce, o processador exibe o conteúdo detetado numa estrutura de objetos. Uma sobreposição do próprio documento mostra como o processador de OCR detetou as palavras na área digitalizada, exibindo as palavras reconhecidas em verde. As palavras destacadas em vermelho não foram adicionadas à estrutura, pois a sua pontuação de confiança não atingiu o limite definido pelo processador. Pode editar a estrutura, bem como as palavras em verde e em vermelho, manualmente, conforme necessário.

Quando apenas uma parte dos dados é necessária, ou quando se trabalha com documentos grandes, pode definir uma área de digitalização (ScanArea) com o rato para realizar o OCR numa região específica do documento de cada vez.

Reconhecimento ótico de caracteres para extração de dados de documentos PDF

Quando a otimização ótica de caracteres (OCR) e a edição estiverem concluídas, poderá guardar os resultados e continuar a criar as suas regras de extração de dados PDF no programa PDF Extractor.

Como extrair dados de um ficheiro PDF

Quando carrega um ficheiro PDF de exemplo para criar um modelo e definir regras de extração de dados, o PDF é exibido ao lado de um painel de esquema. O painel de esquema mostra uma estrutura em árvore que representa a forma como os dados serão extraídos. O extrator PDF da MapForce inclui um motor de sugestões poderoso que identifica automaticamente elementos comuns em documentos e tenta detetar a sua estrutura.

Por exemplo, o motor de sugestões identifica as tabelas que existem no documento, e permite que escolha extraí-las automaticamente. Um operador de divisão na barra de esquema ajuda a definir como dividir corretamente a tabela em linhas separadas. O motor de sugestões pode procurar bordas ou linhas para criar a divisão, ou pode dividir com base numa distância fixa, por exemplo, o que pode visualizar na janela de visualização PDF. Ao mesmo tempo, o motor de sugestões identifica as colunas e o texto do cabeçalho. Ao clicar em qualquer objeto na árvore de esquema, realça a estrutura correspondente e as regras de captura de dados aplicadas no documento PDF.

Como extrair dados de documentos PDF com o MapForce

Em documentos PDF extensos com inúmeras tabelas, pode ser útil procurar texto (como um cabeçalho) no documento e definir regras para processar os dados relacionados a esse texto. Por exemplo, ao criar um modelo para extrair dados de relatórios financeiros anuais, pode procurar a palavra "Despesas" e processar a tabela de valores que se segue a esse texto de acordo. Opções de pesquisa detalhadas, como a distinção entre maiúsculas e minúsculas, a filtragem por formato (fonte, espessura da fonte, etc.) e a pesquisa por palavras inteiras ou parciais, permitem um direcionamento preciso.

Pesquisa de texto no extrator PDF do MapForce

Após a extração dos dados tabulares, pode ajustar as regras de extração, se necessário, para excluir alguns fragmentos, ajustar as atribuições de pontos de referência, definir os limites das tabelas, e assim por diante. Isto pode ser feito utilizando ferramentas visuais e menus suspensos úteis. Pode visualizar os resultados da extração de dados na estrutura de saída para verificar a precisão.

Outros elementos do documento podem ser capturados e adicionados manualmente ao seu modelo. Para definir regras para extrair dados manualmente, basta selecionar uma área no PDF que pretende extrair, desenhando um retângulo em torno dela. Em seguida, selecione a opção "Capturar texto" no menu de contexto que aparece ao clicar com o botão direito. O PDF Extractor adiciona a área capturada como um elemento na estrutura do documento, e pode arrastá-la e soltá-la para a posição desejada na estrutura.

Extrair o ficheiro PDF para mapeamento de dados

À medida que trabalha, o extrator PDF do MapForce cria um documento XML que representa a estrutura do seu modelo PDF, utilizando dados de exemplo do documento PDF em que está a trabalhar, exibidos na janela de saída. Isto ajuda-o a compreender e a aperfeiçoar os resultados da extração, que servirão de modelo para utilização no MapForce.

Visualizar os dados extraídos

Converter dados em PDF

Depois de guardar o seu modelo no extrator PDF do MapForce, estará pronto para inseri-lo como um componente de dados de origem num projeto de mapeamento de dados do MapForce. As necessidades comuns de conversão de PDF incluem:

  • Converter PDF para Excel
  • Conversão de ficheiros PDF para bases de dados (SQL ou NoSQL)
  • Conversão de PDF para JSON
  • Converter PDF para CSV
  • Conversão de PDF para XML
  • Conversão de PDF para Shopify/GraphQL

Claro, o MapForce também permite combinar diferentes formatos de dados de origem e destino, utilizar projetos de mapeamento de dados encadeados e muito mais. Uma vasta biblioteca de funções de processamento de dados e um construtor visual de funções facilitam a filtragem e o processamento dos dados antes de os gravar nos destinos.

Converter PDF para JSON no MapForce

Com o PDF Extractor, o MapForce permite, finalmente, disponibilizar dados empresariais essenciais, que anteriormente estavam bloqueados em documentos PDF, para processos de mapeamento de dados, integração de dados e ETL.

“O Altova MapForce oferece excelentes capacidades de mapeamento que podemos integrar perfeitamente nos nossos produtos principais. A sua natureza extensível significa que cobre todas as nossas necessidades de solução.”

Scott Redford Visionware