Embora o formato PDF seja amplamente utilizado no mundo empresarial, os dados contidos em PDFs não estão facilmente disponíveis para serem integrados a outros sistemas. Os PDFs são geralmente concebidos para conteúdo legível por humanos, com formatação e layouts variáveis, o que torna a extração de dados estruturados extremamente difícil. Podem conter texto, imagens, tabelas e outros elementos, e os dados não estão organizados num formato legível por máquinas. As ferramentas típicas de extração de dados de PDFs podem não fornecer resultados precisos, especialmente para PDFs com layouts complexos. É aí que entra o MapForce PDF Extractor.
O MapForce PDF Extractor é uma ferramenta fácil de usar que permite definir rapidamente a estrutura de um documento PDF e extrair dados dele. Esses dados do PDF podem, posteriormente, ser acessados para transformação e conversão para outros formatos, como XML, JSON, bases de dados, Excel, e assim por diante, no MapForce. É a ferramenta ideal para facilitar a integração de dados PDF e projetos de ETL.
Utilizando ferramentas visuais no MapForce PDF Extractor, pode definir a estrutura de um documento PDF e extrair os seus dados de forma eficiente. O PDF Extractor é uma ferramenta altamente flexível que permite extrair apenas partes do texto, em vez de todo o documento, combinar informações de diferentes páginas do mesmo ficheiro PDF, dividir tabelas em linhas e organizar os dados em grupos.
O design intuitivo e simples do MapForce PDF Extractor facilita a definição da estrutura de documentos PDF de forma visual, utilizando funcionalidades de seleção e arrastar e soltar. Finalmente, os grandes volumes de dados que antes estavam presos em documentos PDF estão agora disponíveis para serem convertidos para outros formatos.
É fácil começar imediatamente a trabalhar com documentos PDF baseados em texto no extrator PDF. No entanto, muitos documentos PDF são, na verdade, documentos digitalizados, ou seja, apenas imagens. O suporte para OCR (reconhecimento ótico de caracteres) permite que o MapForce transforme essas imagens em texto selecionável e pesquisável, que pode ser extraído. Isto permite que o extrator PDF do MapForce processe uma grande variedade de formatos, incluindo documentos antigos, arquivos de papel digitalizados e formulários digitalizados ou manuscritos.
Quando executa o OCR num ficheiro PDF digitalizado no MapForce, o processador exibe o conteúdo detetado numa estrutura de objetos. Uma sobreposição do próprio documento mostra como o processador de OCR detetou as palavras na área digitalizada, exibindo as palavras reconhecidas em verde. As palavras destacadas em vermelho não foram adicionadas à estrutura, pois a sua pontuação de confiança não atingiu o limite definido pelo processador. Pode editar a estrutura, bem como as palavras em verde e em vermelho, manualmente, conforme necessário.
Quando apenas uma parte dos dados é necessária, ou quando se trabalha com documentos grandes, pode definir uma área de digitalização (ScanArea) com o rato para realizar o OCR numa região específica do documento de cada vez.
Quando a otimização ótica de caracteres (OCR) e a edição estiverem concluídas, poderá guardar os resultados e continuar a criar as suas regras de extração de dados PDF no programa PDF Extractor.
Quando carrega um ficheiro PDF de exemplo para criar um modelo e definir regras de extração de dados, o PDF é exibido ao lado de um painel de esquema. O painel de esquema mostra uma estrutura em árvore que representa a forma como os dados serão extraídos. O extrator PDF da MapForce inclui um motor de sugestões poderoso que identifica automaticamente elementos comuns em documentos e tenta detetar a sua estrutura.
Por exemplo, o motor de sugestões identifica as tabelas que existem no documento, e permite que escolha extraí-las automaticamente. Um operador de divisão na barra de esquema ajuda a definir como dividir corretamente a tabela em linhas separadas. O motor de sugestões pode procurar bordas ou linhas para criar a divisão, ou pode dividir com base numa distância fixa, por exemplo, o que pode visualizar na janela de visualização PDF. Ao mesmo tempo, o motor de sugestões identifica as colunas e o texto do cabeçalho. Ao clicar em qualquer objeto na árvore de esquema, realça a estrutura correspondente e as regras de captura de dados aplicadas no documento PDF.
Em documentos PDF extensos com inúmeras tabelas, pode ser útil procurar texto (como um cabeçalho) no documento e definir regras para processar os dados relacionados a esse texto. Por exemplo, ao criar um modelo para extrair dados de relatórios financeiros anuais, pode procurar a palavra "Despesas" e processar a tabela de valores que se segue a esse texto de acordo. Opções de pesquisa detalhadas, como a distinção entre maiúsculas e minúsculas, a filtragem por formato (fonte, espessura da fonte, etc.) e a pesquisa por palavras inteiras ou parciais, permitem um direcionamento preciso.
Após a extração dos dados tabulares, pode ajustar as regras de extração, se necessário, para excluir alguns fragmentos, ajustar as atribuições de pontos de referência, definir os limites das tabelas, e assim por diante. Isto pode ser feito utilizando ferramentas visuais e menus suspensos úteis. Pode visualizar os resultados da extração de dados na estrutura de saída para verificar a precisão.
Outros elementos do documento podem ser capturados e adicionados manualmente ao seu modelo. Para definir regras para extrair dados manualmente, basta selecionar uma área no PDF que pretende extrair, desenhando um retângulo em torno dela. Em seguida, selecione a opção "Capturar texto" no menu de contexto que aparece ao clicar com o botão direito. O PDF Extractor adiciona a área capturada como um elemento na estrutura do documento, e pode arrastá-la e soltá-la para a posição desejada na estrutura.
À medida que trabalha, o extrator PDF do MapForce cria um documento XML que representa a estrutura do seu modelo PDF, utilizando dados de exemplo do documento PDF em que está a trabalhar, exibidos na janela de saída. Isto ajuda-o a compreender e a aperfeiçoar os resultados da extração, que servirão de modelo para utilização no MapForce.
Depois de guardar o seu modelo no extrator PDF do MapForce, estará pronto para inseri-lo como um componente de dados de origem num projeto de mapeamento de dados do MapForce. As necessidades comuns de conversão de PDF incluem:
Claro, o MapForce também permite combinar diferentes formatos de dados de origem e destino, utilizar projetos de mapeamento de dados encadeados e muito mais. Uma vasta biblioteca de funções de processamento de dados e um construtor visual de funções facilitam a filtragem e o processamento dos dados antes de os gravar nos destinos.
Com o PDF Extractor, o MapForce permite, finalmente, disponibilizar dados empresariais essenciais, que anteriormente estavam bloqueados em documentos PDF, para processos de mapeamento de dados, integração de dados e ETL.
“O Altova MapForce oferece excelentes capacidades de mapeamento que podemos integrar perfeitamente nos nossos produtos principais. A sua natureza extensível significa que cobre todas as nossas necessidades de solução.”





