Wyodrębnianie danych z plików PDF do mapowania danych

MapForce – narzędzie do ekstrakcji danych z plików PDF

Łatwo definiuj reguły, aby wyodrębnić dane z plików PDF
Utwórz szablony, które pozwolą na konwersję plików PDF do innych formatów
Interfejs graficzny, oparty na klikaniu w elementy
Zaawansowany system rekomendacji do automatycznego wydobywania danych
Wybieraj fragmenty, łącz i dopasowuj informacje

Rozpoznawanie tekstu w zeskanowanych plikach PDF
Zaawansowane narzędzia do wydobywania danych z tabel
Łatwo grupuj dane
Drzewo schematów do podglądu wyników szablonu
Konwertuj pliki PDF na formaty Excel, bazy danych, JSON, CSV i inne
Automatyzacja mapowania plików PDF za pomocą serwera MapForce

Ekstrakcja danych z plików PDF

Chociaż format PDF jest powszechnie stosowany w biznesie, dane zawarte w plikach PDF nie są łatwo dostępne do integracji z innymi systemami. Pliki PDF są zazwyczaj przeznaczone do prezentacji treści czytelnych dla człowieka, z różnorodnym formatowaniem i układem, co sprawia, że ekstrakcja ustrukturyzowanych danych jest niezwykle trudna. Mogą one zawierać tekst, obrazy, tabele i inne elementy, a dane nie są zorganizowane w formacie czytelnym dla maszyn. Typowe narzędzia do ekstrakcji danych z plików PDF mogą nie dostarczać dokładnych wyników, zwłaszcza w przypadku plików o złożonych układach. Właśnie dlatego powstał MapForce PDF Extractor.

Program MapForce PDF Extractor to łatwe w użyciu narzędzie, które umożliwia szybkie zdefiniowanie struktury dokumentu PDF i wyodrębnienie z niego danych. Następnie, te dane z dokumentu PDF można wykorzystać do dalszej transformacji i konwersji do innych formatów, takich jak XML, JSON, bazy danych, Excel i inne, w programie MapForce. Jest to idealne narzędzie do integracji danych z dokumentów PDF oraz do realizacji projektów ETL (Extract, Transform, Load).

Dzięki wykorzystaniu narzędzi wizualnych w programie MapForce PDF Extractor, można zdefiniować strukturę dokumentu PDF i efektywnie wyodrębnić z niego dane. PDF Extractor to bardzo elastyczne narzędzie, które umożliwia wyodrębnianie tylko fragmentów tekstu, a nie całego dokumentu, łączenie fragmentów informacji z różnych stron tego samego pliku PDF, dzielenie tabel na wiersze oraz grupowanie danych.

Uzyskaj dostęp do danych w formacie PDF, aby móc je przekonwertować za pomocą programu MapForce PDF Extractor

Intuicyjny i prosty w obsłudze program MapForce PDF Extractor umożliwia łatwe definiowanie struktury dokumentów PDF w sposób wizualny, wykorzystując funkcje klikania i przeciągania. Dzięki temu ogromne ilości danych, które wcześniej były zamknięte w plikach PDF, są teraz dostępne do konwersji do innych formatów.

Dowiedz się, jak korzystać z narzędzia MapForce PDF Extractor

Rozpoczęcie pracy z OCR

W programie PDF Extractor łatwo jest od razu rozpocząć pracę z plikami PDF zawierającymi tekst. Jednak wiele plików PDF to w rzeczywistości zeskanowane dokumenty, czyli po prostu obrazy. Dzięki wsparciu dla OCR (optycznego rozpoznawania znaków), program MapForce może przekształcić te obrazy w tekst, który można zaznaczać i przeszukiwać, a tym samym wydobywać z niego dane. Dzięki temu program MapForce PDF Extractor może przetwarzać różnorodne rodzaje danych wejściowych, w tym starsze dokumenty, zdigitalizowane archiwa papierowe oraz zeskanowane lub ręcznie pisane formularze.

Podczas wykonywania rozpoznawania tekstu (OCR) na zeskanowanym pliku PDF w programie MapForce, procesor wyświetla wykryty tekst w postaci drzewa obiektów. Nakładka na obraz dokumentu pokazuje, jak procesor rozpoznawania tekstu zidentyfikował słowa na obszarze skanu, wyświetlając rozpoznane słowa na zielono. Słowa oznaczone na czerwono nie zostały dodane do drzewa, ponieważ ich współczynnik pewności nie spełniał progu ustawionego przez procesor. Można edytować drzewo, a także ręcznie modyfikować słowa oznaczone na zielono i czerwono, w razie potrzeby.

Kiedy potrzebujesz przetworzyć tylko część danych, lub gdy pracujesz z dużymi dokumentami, możesz zdefiniować obszar skanowania za pomocą myszy, aby przeprowadzać rozpoznawanie tekstu (OCR) na jednej sekcji dokumentu na raz.

Rozpoznawanie znaków (OCR) do ekstrakcji danych z plików PDF

Po zakończeniu procesów rozpoznawania tekstu (OCR) i edycji, można zapisać wyniki i kontynuować tworzenie reguł ekstrakcji danych PDF w programie PDF Extractor.

Jak wyodrębnić dane z plików PDF

Po załadowaniu przykładowego pliku PDF w celu utworzenia szablonu i zdefiniowania reguł ekstrakcji danych, plik PDF jest wyświetlany obok panelu schematu. Panel schematu przedstawia strukturę drzewiastą, która ilustruje sposób, w jaki dane zostaną wyodrębnione. Narzędzie MapForce PDF Extractor zawiera zaawansowany system sugestii, który automatycznie identyfikuje powszechne elementy dokumentu i próbuje wykryć ich strukturę.

Na przykład, silnik sugestii zidentyfikuje tabele występujące w dokumencie, a następnie umożliwi automatyczne ich wyodrębnienie. Operator podziału w panelu schematu pomaga zdefiniować, w jaki sposób poprawnie podzielić tabelę na oddzielne wiersze. Silnik sugestii może szukać krawędzi lub linii, aby utworzyć podział, lub dzielić na podstawie stałej odległości, co można podglądać w panelu podglądu PDF. Jednocześnie, silnik sugestii rozpoznaje kolumny i tekst nagłówków. Kliknięcie dowolnego obiektu w drzewie schematu wyróżnia odpowiadającą mu strukturę oraz zasady pobierania danych, tak jak są one stosowane w podglądzie dokumentu PDF.

Jak wyodrębnić dane z plików PDF za pomocą MapForce

W dużych dokumentach PDF zawierających liczne tabele, może być przydatne wyszukiwanie tekstu (np. nagłówka) w dokumencie i definiowanie reguł przetwarzania danych w odniesieniu do tego tekstu. Na przykład, podczas tworzenia szablonu do ekstrakcji danych z rocznych raportów finansowych, można wyszukać słowo „Wydatki” i odpowiednio przetworzyć tabelę z danymi znajdującą się po tym tekście. Szczegółowe opcje wyszukiwania, takie jak uwzględnianie wielkości liter, filtrowanie formatowania (czcionka, grubość czcionki itp.) oraz wyszukiwanie całych lub częściowych słów, umożliwiają precyzyjne targetowanie.

Wyszukiwanie tekstu w programie MapForce PDF Extractor

Po wyodrębnieniu danych w formie tabelarycznej, można dostosować reguły ekstrakcji, aby wykluczyć niektóre fragmenty, zmienić przypisania punktów odniesienia, zdefiniować granice tabeli i tak dalej. Można to zrobić za pomocą narzędzi wizualnych i przydatnych menu rozwijanych. Można podglądać wyniki ekstrakcji danych w drzewie wynikowym, aby sprawdzić ich dokładność.

Pozostałe elementy dokumentu można ręcznie dodać do szablonu. Aby zdefiniować reguły ręcznego wyodrębniania danych, wystarczy zaznaczyć obszar w pliku PDF, który ma zostać wyodrębniony, rysując wokół niego prostokąt. Następnie, z menu kontekstowego, wybierz opcję "Pobierz tekst". Narzędzie PDF Extractor dodaje zaznaczony obszar jako element w strukturze dokumentu, a można go przeciągać i upuszczać w pożądaną lokalizację w tej strukturze.

Wyodrębnij plik PDF w celu mapowania danych

Podczas pracy, narzędzie MapForce PDF Extractor tworzy dokument XML, który reprezentuje strukturę pliku PDF, z którego pobierane są dane, oraz zawiera przykładowe dane z aktualnie przetwarzanego pliku PDF, wyświetlane w oknie wynikowym. To pomaga zrozumieć i udoskonalić wyniki ekstrakcji, które staną się szablonem do wykorzystania w MapForce.

Konwertuj dane PDF

Po zapisaniu szablonu w programie MapForce PDF Extractor, można go wykorzystać jako komponent źródłowy danych w projekcie mapowania danych w programie MapForce. Typowe wymagania dotyczące konwersji plików PDF obejmują:

Konwersja plików PDF do formatu Excel
Konwersja plików PDF do baz danych (SQL lub NoSQL)
Konwersja plików PDF do formatu JSON
Konwersja plików PDF do formatu CSV
Konwersja plików PDF do formatu XML
Konwersja plików PDF do formatu Shopify/GraphQL

Oczywiście, MapForce umożliwia również łączenie różnych formatów danych źródłowych i docelowych, łączenie projektów mapowania danych w łańcuch oraz oferuje wiele innych możliwości. Bogata biblioteka funkcji przetwarzania danych oraz wizualny konstruktor funkcji ułatwiają filtrowanie i przetwarzanie danych przed zapisaniem ich do docelowych systemów.

Konwersja plików PDF do formatu JSON w programie MapForce

Dzięki narzędziu PDF Extractor, MapForce umożliwia dostęp do kluczowych danych biznesowych, które wcześniej były niedostępne ze względu na format PDF, umożliwiając ich wykorzystanie w procesach mapowania danych, integracji danych oraz ETL.

“Altova MapForce oferuje doskonałe możliwości mapowania, które możemy bezproblemowo zintegrować z naszymi podstawowymi produktami. Elastyczność tego narzędzia sprawia, że spełnia wszystkie nasze wymagania dotyczące rozwiązań.”

Scott Redford Visionware

Pobierz

Pobierz teraz w pełni funkcjonalną, bezpłatną 30-dniową wersję próbną programu Altova MapForce!

Aktualizacja

Istniejący klienci mogą zaktualizować oprogramowanie do najnowszej wersji, korzystając z tej strony.

Kup

MapForce, teraz.

Language:
EN
DE
FR
ES
JA
ZH
IT
KO
NL
PL
PT