Chociaż format PDF jest powszechnie stosowany w biznesie, dane zawarte w plikach PDF nie są łatwo dostępne do integracji z innymi systemami. Pliki PDF są zazwyczaj przeznaczone do prezentacji treści czytelnych dla człowieka, z różnorodnym formatowaniem i układem, co sprawia, że ekstrakcja ustrukturyzowanych danych jest niezwykle trudna. Mogą one zawierać tekst, obrazy, tabele i inne elementy, a dane nie są zorganizowane w formacie czytelnym dla maszyn. Typowe narzędzia do ekstrakcji danych z plików PDF mogą nie dostarczać dokładnych wyników, zwłaszcza w przypadku plików o złożonych układach. Właśnie dlatego powstał MapForce PDF Extractor.
Program MapForce PDF Extractor to łatwe w użyciu narzędzie, które umożliwia szybkie zdefiniowanie struktury dokumentu PDF i wyodrębnienie z niego danych. Następnie, te dane z dokumentu PDF można wykorzystać do dalszej transformacji i konwersji do innych formatów, takich jak XML, JSON, bazy danych, Excel i inne, w programie MapForce. Jest to idealne narzędzie do integracji danych z dokumentów PDF oraz do realizacji projektów ETL (Extract, Transform, Load).
Dzięki wykorzystaniu narzędzi wizualnych w programie MapForce PDF Extractor, można zdefiniować strukturę dokumentu PDF i efektywnie wyodrębnić z niego dane. PDF Extractor to bardzo elastyczne narzędzie, które umożliwia wyodrębnianie tylko fragmentów tekstu, a nie całego dokumentu, łączenie fragmentów informacji z różnych stron tego samego pliku PDF, dzielenie tabel na wiersze oraz grupowanie danych.
Intuicyjny i prosty w obsłudze program MapForce PDF Extractor umożliwia łatwe definiowanie struktury dokumentów PDF w sposób wizualny, wykorzystując funkcje klikania i przeciągania. Dzięki temu ogromne ilości danych, które wcześniej były zamknięte w plikach PDF, są teraz dostępne do konwersji do innych formatów.
W programie PDF Extractor łatwo jest od razu rozpocząć pracę z plikami PDF zawierającymi tekst. Jednak wiele plików PDF to w rzeczywistości zeskanowane dokumenty, czyli po prostu obrazy. Dzięki wsparciu dla OCR (optycznego rozpoznawania znaków), program MapForce może przekształcić te obrazy w tekst, który można zaznaczać i przeszukiwać, a tym samym wydobywać z niego dane. Dzięki temu program MapForce PDF Extractor może przetwarzać różnorodne rodzaje danych wejściowych, w tym starsze dokumenty, zdigitalizowane archiwa papierowe oraz zeskanowane lub ręcznie pisane formularze.
Podczas wykonywania rozpoznawania tekstu (OCR) na zeskanowanym pliku PDF w programie MapForce, procesor wyświetla wykryty tekst w postaci drzewa obiektów. Nakładka na obraz dokumentu pokazuje, jak procesor rozpoznawania tekstu zidentyfikował słowa na obszarze skanu, wyświetlając rozpoznane słowa na zielono. Słowa oznaczone na czerwono nie zostały dodane do drzewa, ponieważ ich współczynnik pewności nie spełniał progu ustawionego przez procesor. Można edytować drzewo, a także ręcznie modyfikować słowa oznaczone na zielono i czerwono, w razie potrzeby.
Kiedy potrzebujesz przetworzyć tylko część danych, lub gdy pracujesz z dużymi dokumentami, możesz zdefiniować obszar skanowania za pomocą myszy, aby przeprowadzać rozpoznawanie tekstu (OCR) na jednej sekcji dokumentu na raz.
Po zakończeniu procesów rozpoznawania tekstu (OCR) i edycji, można zapisać wyniki i kontynuować tworzenie reguł ekstrakcji danych PDF w programie PDF Extractor.
Po załadowaniu przykładowego pliku PDF w celu utworzenia szablonu i zdefiniowania reguł ekstrakcji danych, plik PDF jest wyświetlany obok panelu schematu. Panel schematu przedstawia strukturę drzewiastą, która ilustruje sposób, w jaki dane zostaną wyodrębnione. Narzędzie MapForce PDF Extractor zawiera zaawansowany system sugestii, który automatycznie identyfikuje powszechne elementy dokumentu i próbuje wykryć ich strukturę.
Na przykład, silnik sugestii zidentyfikuje tabele występujące w dokumencie, a następnie umożliwi automatyczne ich wyodrębnienie. Operator podziału w panelu schematu pomaga zdefiniować, w jaki sposób poprawnie podzielić tabelę na oddzielne wiersze. Silnik sugestii może szukać krawędzi lub linii, aby utworzyć podział, lub dzielić na podstawie stałej odległości, co można podglądać w panelu podglądu PDF. Jednocześnie, silnik sugestii rozpoznaje kolumny i tekst nagłówków. Kliknięcie dowolnego obiektu w drzewie schematu wyróżnia odpowiadającą mu strukturę oraz zasady pobierania danych, tak jak są one stosowane w podglądzie dokumentu PDF.
W dużych dokumentach PDF zawierających liczne tabele, może być przydatne wyszukiwanie tekstu (np. nagłówka) w dokumencie i definiowanie reguł przetwarzania danych w odniesieniu do tego tekstu. Na przykład, podczas tworzenia szablonu do ekstrakcji danych z rocznych raportów finansowych, można wyszukać słowo „Wydatki” i odpowiednio przetworzyć tabelę z danymi znajdującą się po tym tekście. Szczegółowe opcje wyszukiwania, takie jak uwzględnianie wielkości liter, filtrowanie formatowania (czcionka, grubość czcionki itp.) oraz wyszukiwanie całych lub częściowych słów, umożliwiają precyzyjne targetowanie.
Po wyodrębnieniu danych w formie tabelarycznej, można dostosować reguły ekstrakcji, aby wykluczyć niektóre fragmenty, zmienić przypisania punktów odniesienia, zdefiniować granice tabeli i tak dalej. Można to zrobić za pomocą narzędzi wizualnych i przydatnych menu rozwijanych. Można podglądać wyniki ekstrakcji danych w drzewie wynikowym, aby sprawdzić ich dokładność.
Pozostałe elementy dokumentu można ręcznie dodać do szablonu. Aby zdefiniować reguły ręcznego wyodrębniania danych, wystarczy zaznaczyć obszar w pliku PDF, który ma zostać wyodrębniony, rysując wokół niego prostokąt. Następnie, z menu kontekstowego, wybierz opcję "Pobierz tekst". Narzędzie PDF Extractor dodaje zaznaczony obszar jako element w strukturze dokumentu, a można go przeciągać i upuszczać w pożądaną lokalizację w tej strukturze.
Podczas pracy, narzędzie MapForce PDF Extractor tworzy dokument XML, który reprezentuje strukturę pliku PDF, z którego pobierane są dane, oraz zawiera przykładowe dane z aktualnie przetwarzanego pliku PDF, wyświetlane w oknie wynikowym. To pomaga zrozumieć i udoskonalić wyniki ekstrakcji, które staną się szablonem do wykorzystania w MapForce.
Po zapisaniu szablonu w programie MapForce PDF Extractor, można go wykorzystać jako komponent źródłowy danych w projekcie mapowania danych w programie MapForce. Typowe wymagania dotyczące konwersji plików PDF obejmują:
Oczywiście, MapForce umożliwia również łączenie różnych formatów danych źródłowych i docelowych, łączenie projektów mapowania danych w łańcuch oraz oferuje wiele innych możliwości. Bogata biblioteka funkcji przetwarzania danych oraz wizualny konstruktor funkcji ułatwiają filtrowanie i przetwarzanie danych przed zapisaniem ich do docelowych systemów.
Dzięki narzędziu PDF Extractor, MapForce umożliwia dostęp do kluczowych danych biznesowych, które wcześniej były niedostępne ze względu na format PDF, umożliwiając ich wykorzystanie w procesach mapowania danych, integracji danych oraz ETL.
“Altova MapForce oferuje doskonałe możliwości mapowania, które możemy bezproblemowo zintegrować z naszymi podstawowymi produktami. Elastyczność tego narzędzia sprawia, że spełnia wszystkie nasze wymagania dotyczące rozwiązań.”





