Embora o formato PDF seja amplamente utilizado em diversos setores hoje em dia, os dados contidos em arquivos PDF não estão facilmente disponíveis para serem integrados a outros sistemas. Os arquivos PDF são geralmente projetados para conteúdo legível por humanos, com formatação e layouts variáveis, o que torna a extração de dados estruturados extremamente difícil. Eles podem conter texto, imagens, tabelas e outros elementos, e os dados não estão organizados em um formato que possa ser lido por máquinas. As ferramentas típicas de extração de dados de PDF podem não fornecer resultados precisos, especialmente para PDFs com layouts complexos. É aí que o MapForce PDF Extractor se torna útil.
O MapForce PDF Extractor é uma ferramenta fácil de usar que permite definir rapidamente a estrutura de um documento PDF e extrair dados dele. Esses dados do PDF podem então ser acessados para transformações adicionais e conversões para outros formatos, como XML, JSON, bancos de dados, Excel, e assim por diante, no MapForce. É a ferramenta ideal para facilitar a integração de dados PDF e projetos de ETL (Extração, Transformação e Carga).
Utilizando ferramentas visuais no MapForce PDF Extractor, você pode definir a estrutura de um documento PDF e extrair seus dados de forma eficiente. O PDF Extractor é uma ferramenta altamente flexível que permite extrair apenas partes do texto, em vez de todo o documento, combinar informações de diferentes páginas do mesmo arquivo PDF, dividir tabelas em linhas e organizar os dados em grupos.
O design intuitivo e simples do MapForce PDF Extractor facilita a definição da estrutura de documentos PDF de forma visual, utilizando funcionalidades de seleção com o mouse e arrastar e soltar. Finalmente, os grandes volumes de dados que antes estavam restritos aos arquivos PDF estão disponíveis para serem convertidos para outros formatos.
É fácil começar imediatamente a trabalhar com PDFs baseados em texto no extrator de PDF. No entanto, muitos PDFs são, na verdade, documentos digitalizados, ou seja, apenas imagens. O suporte para OCR (reconhecimento óptico de caracteres) permite que o MapForce transforme essas imagens em texto selecionável e pesquisável, disponível para extração. Isso permite que o extrator de PDF do MapForce processe uma variedade de formatos de entrada, incluindo documentos antigos, arquivos de papel digitalizados e formulários digitalizados ou manuscritos.
Ao executar o OCR em um arquivo PDF digitalizado no MapForce, o processador exibe o conteúdo detectado em uma estrutura de objetos. Uma sobreposição do próprio documento mostra como o processador de OCR identificou as palavras na área digitalizada, exibindo as palavras reconhecidas em verde. As palavras destacadas em vermelho não foram adicionadas à estrutura, pois sua pontuação de confiança não atingiu o limite estabelecido pelo processador. Você pode editar a estrutura, bem como as palavras em verde e vermelho, manualmente, conforme necessário.
Quando apenas uma parte dos dados é necessária, ou ao trabalhar com documentos grandes, você pode definir uma área de digitalização (ScanArea) com o mouse para realizar o reconhecimento óptico de caracteres (OCR) em uma região específica do documento de cada vez.
Após a conclusão do reconhecimento óptico de caracteres (OCR) e da edição, você pode salvar os resultados e continuar a criar as regras de extração de dados em PDF no software PDF Extractor.
Ao carregar um arquivo PDF de exemplo para criar um modelo e definir regras de extração de dados, o PDF é exibido ao lado de um painel de esquema. O painel de esquema mostra uma estrutura em árvore que representa como os dados serão extraídos. O extrator de PDF do MapForce inclui um motor de sugestões poderoso que identifica automaticamente elementos comuns em documentos e tenta detectar sua estrutura.
Por exemplo, o sistema de sugestões identificará as tabelas que existem no documento, e você poderá optar por extraí-las automaticamente. Um operador de divisão na barra de esquema ajuda a definir como dividir corretamente a tabela em linhas separadas. O sistema de sugestões pode procurar bordas ou linhas para criar a divisão, ou pode dividir com base em uma distância fixa, por exemplo, o que você pode visualizar na janela de visualização do PDF. Ao mesmo tempo, o sistema de sugestões identifica as colunas e o texto do cabeçalho. Ao clicar em qualquer objeto na árvore de esquema, a estrutura correspondente e as regras de captura de dados são destacadas, conforme aplicadas na visualização do documento PDF.
Em documentos PDF extensos com inúmeras tabelas, pode ser útil pesquisar por texto (como um cabeçalho) no documento e definir regras para processar os dados em relação a esse texto. Por exemplo, ao criar um modelo para extrair dados de relatórios financeiros anuais, você pode pesquisar por "Despesas" e processar a tabela de números que segue esse texto de acordo. Opções de pesquisa detalhadas, como a diferenciação entre maiúsculas e minúsculas, a filtragem por formato (fonte, peso da fonte, etc.) e a pesquisa por palavras inteiras ou parciais, permitem um direcionamento preciso.
Após a extração dos dados tabulares, você pode ajustar as regras de extração, se necessário, para excluir alguns fragmentos, ajustar as atribuições de pontos de referência, definir os limites das tabelas, e assim por diante. Isso pode ser feito utilizando ferramentas visuais e menus suspensos úteis. Você pode visualizar os resultados da extração de dados na estrutura de saída para verificar a precisão.
Outros elementos do documento podem ser capturados e adicionados manualmente ao seu modelo. Para definir regras para extrair dados manualmente, basta selecionar uma área no PDF que deseja extrair, desenhando um retângulo ao redor dela. Em seguida, selecione a opção "Capturar texto" no menu de contexto que aparece ao clicar com o botão direito. O PDF Extractor adiciona a área capturada como um elemento na estrutura do documento, e você pode arrastá-la e soltá-la para a posição desejada na estrutura.
À medida que você trabalha, o extrator de PDF do MapForce cria um documento XML que representa a estrutura do seu modelo PDF, utilizando dados de exemplo do documento PDF em que está trabalhando, exibidos na janela de saída. Isso ajuda você a entender e aprimorar os resultados da extração, que se tornarão um modelo para ser usado no MapForce.
Depois de salvar o seu modelo no extrator PDF do MapForce, você estará pronto para inseri-lo como um componente de dados de origem em um projeto de mapeamento de dados do MapForce. As necessidades comuns de conversão de PDF incluem:
Claro, o MapForce também pode combinar diferentes formatos de dados de origem e destino, projetos de mapeamento de dados encadeados e muito mais. Uma vasta biblioteca de funções de processamento de dados e um construtor visual de funções facilitam a filtragem e o processamento dos dados antes de gravá-los no(s) destino(s).
Com o PDF Extractor, o MapForce finalmente torna dados empresariais cruciais, que antes estavam restritos em arquivos PDF, acessíveis para mapeamento de dados, integração de dados e processos de ETL.
“O Altova MapForce oferece excelentes recursos de mapeamento que podemos integrar perfeitamente em nossos produtos principais. A flexibilidade do produto significa que ele atende a todas as nossas necessidades de solução.”





