---
title: Wyodrębnij dane do mapowania plików PDF
date: 2023-11-06
categories:
  - data-integration
  - etl
tags:
  - data-integration
  - data-mapping
  - etl
  - pdf
  - pdf-extractor
description: Poznaj MapForce PDF Extractor, narzędzie graficzne do ekstrakcji danych z plików PDF w ustrukturyzowanym formacie, gotowym do integracji danych i procesów ETL.
---
Status: #blog

Tags:  #data-integration #data-mapping #etl #pdf #pdf-extractor

Categories: [data-integration](/blog/pl/category/data-integration.md) | [etl](/blog/pl/category/etl.md)
# Wyodrębnij dane do mapowania plików PDF

MapForce, nagradzane narzędzie do mapowania danych firmy Altova, oferuje wsparcie dla plików PDF w procesach integracji danych i ETL. Narzędzie MapForce PDF Extractor umożliwia łatwe definiowanie reguł ekstrakcji danych z plików PDF w ustrukturyzowanym formacie, co pozwala na ich wykorzystanie do mapowania na inne popularne formaty, takie jak Excel, XML, JSON, bazy danych i inne.

Spójrzmy, jak to działa.

![](/blog/images/mapforce-pdf.png)

<!--more-->

## Jak wyodrębnić dane z pliku PDF

Format plików PDF cieszy się obecnie bardzo szerokim zastosowaniem w komunikacji w różnych branżach, dzięki swojej zdolności do zapewnienia spójnego wyglądu na dowolnej platformie lub urządzeniu. Pliki PDF zazwyczaj łączą różne sposoby prezentacji danych w elementy, które są czytelne dla użytkowników, takie jak tekst, obrazy, wykresy i tabele, a wszystko to z szerokimi możliwościami formatowania.

Chociaż pliki PDF są świetne do prezentowania danych w sposób przyjazny dla użytkownika, brakuje im wbudowanej struktury, która byłaby niezbędna do efektywnego wydobywania tych danych w celu integracji z innymi systemami biznesowymi, co oczywiście jest częstym wymaganiem. Tradycyjne narzędzia do ekstrakcji danych często nie są w stanie dokładnie pobierać informacji z plików PDF, zwłaszcza w przypadku złożonych układów i różnorodnych stylów formatowania. Może to prowadzić do błędów, nieefektywności oraz konieczności ręcznej interwencji w celu poprawy wydobytych danych.

Aby rozwiązać problemy związane z integracją danych PDF, firma Altova stworzyła narzędzie [MapForce PDF Extractor](https://www.altova.com/pl/mapforce/pdf-extractor), czyli wizualne narzędzie, które ułatwia definiowanie reguł ekstrakcji ustrukturyzowanych danych z plików PDF.

Obejrzyj ten film instruktażowy, aby dowiedzieć się, jak działa program MapForce PDF Extractor:

![](https://www.youtube.com/watch?v=iU-ZHrXoL3g)

Najlepszym sposobem na rozpoczęcie pracy z programem MapForce PDF Extractor jest załadowanie przykładowego dokumentu, który ma format danych, które chcesz wyodrębnić. Może to być faktura, formularz wprowadzania danych, raport, baza danych klientów itp. Jeśli plik PDF jest zeskanowaną wersją innego dokumentu, można [rozpocząć proces OCR](ocr-support-in-mapforce), aby odblokować zawarte w nim dane i przygotować je do przetwarzania przez program. 

Program PDF Extractor wyświetla wybrany dokument, umożliwiając rozpoczęcie definiowania szablonu oraz zasad ekstrakcji danych w sposób uporządkowany. Prosta konstrukcja programu MapForce PDF Extractor ułatwia wizualne określenie struktury dokumentu PDF, wykorzystując funkcje interaktywne, takie jak klikanie i przeciąganie.

Obok okna podglądu PDF znajduje się panel schematu, który wyświetla strukturę drzewiastą, przedstawiającą sposób, w jaki plik PDF zostanie przetworzony i z którego zostaną wyodrębnione dane.

[![Wyodrębnij dane z plików PDF za pomocą narzędzia MapForce PDF Extractor](/blog/images/extract-data-from-pdf.png)](extract-data-from-pdf.png)

Panel właściwości umożliwia definiowanie właściwości i obliczanie wyrażeń, w zależności od potrzeb. Na dole widoku dokumentu PDF znajduje się panel wyników (pokazany powyżej), który pozwala zobaczyć podgląd wyniku [ekstrakcji danych z pliku PDF](https://www.altova.com/pl/mapforce/pdf-extractor) na podstawie zdefiniowanych właściwości i reguł ekstrakcji. Wynik jest przedstawiony w postaci dokumentu XML, który zawiera tagi XML opisujące strukturę oraz rzeczywistą zawartość pliku, z którego dane są wyodrębniane.

Aby wyodrębnić fragmenty dokumentu i dodać je do drzewa schematu, wystarczy zaznaczyć odpowiedni obszar, a następnie kliknąć prawym przyciskiem myszy, aby utworzyć fragment tekstu. 

[![Wyodrębnij tekst z pliku PDF ](/blog/images/capture-pdf-text.png)](capture-pdf-text.png)

Przeciągnij nowo utworzony element do wybranego miejsca w strukturze i nadaj mu opisową nazwę.

[![Przeciągnij fragment tekstu pobrany z pliku PDF do odpowiedniego miejsca w schemacie ](/blog/images/pdf-structure-tree.png)](pdf-structure-tree.png)

Oprócz możliwości ręcznego definiowania reguł ekstrakcji danych, narzędzie MapForce PDF Extractor zawiera zaawansowany system sugestii, który automatycznie identyfikuje powszechne elementy dokumentów i próbuje wykryć ich strukturę. Na przykład, system sugestii może zidentyfikować tabele występujące w dokumencie, które można automatycznie wyodrębnić, a następnie, w razie potrzeby, doprecyzować. Operator podziału w panelu schematu pomaga zdefiniować, w jaki sposób poprawnie podzielić tabelę na oddzielne wiersze. System sugestii może szukać krawędzi lub linii, aby utworzyć podział, dokonywać podziału w oparciu o stałą odległość lub wykrywać zmiany w kolorze tła, co można podglądać w panelu podglądu PDF. Jednocześnie, system sugestii rozpoznaje kolumny i tekst nagłówków, które można, w razie potrzeby, doprecyzować, jak widać w powyższym filmie.

Kliknięcie w dowolny obiekt w drzewie schematu powoduje podświetlenie odpowiadającej mu struktury oraz zasad pobierania danych, tak jak są one stosowane w widoku dokumentu PDF.

[![Wyodrębnianie danych z tabel znajdujących się w dokumentach PDF](/blog/images/extract-PDF-table-data.png)](extract-PDF-table-data.png)

## Konwersja plików PDF z mapami do innych formatów

Po zakończeniu konfiguracji szablonu w narzędziu MapForce PDF Extractor, można go dodać do projektu mapowania danych w MapForce, aby efektywnie przekształcać dane PDF do innych obsługiwanych formatów. Po prostu przeciągnij i upuść, aby powiązać źródłowe i docelowe węzły, i skorzystaj z wbudowanej biblioteki funkcji przetwarzania danych, aby przekształcić dane PDF. Typowe zastosowania obejmują:

- Konwersja plików PDF do formatu Excel

- Konwersja plików PDF do formatu XML

- Konwersja plików PDF do formatu JSON

- Konwersja plików PDF do systemów baz danych SQL lub NoSQL

- Konwersja plików PDF na wiadomości w formacie EDI

- Konwersja plików PDF do formatu CSV lub tekstowego

Oprócz tych scenariuszy, MapForce obsługuje procesy mapowania danych składające się z wielu etapów, a także umożliwia pracę z wieloma różnymi strukturami danych źródłowych i docelowych.

![Konwersja plików PDF do formatu JSON w programie MapForce](/blog/images/PDF-to-JSON.png)

W oparciu o zdefiniowane mapowanie danych, MapForce natychmiast przekształca dane. Alternatywnie, można skorzystać z zaawansowanej wersji MapForce Server, która umożliwia regularne przekształcanie plików PDF oraz tworzenie potoków ETL. Dzięki temu organizacje mogą automatyzować integrację danych i usprawniać procesy, płynnie integrując dane z plików PDF z istniejącymi systemami, bazami danych i przepływami pracy.

Rozpocznij pracę z programem MapForce PDF Extractor, korzystając z [pobieranie wersji próbnej](https://www.altova.com/pl/mapforce/download) ze strony internetowej firmy Altova.