---
title: Odszyfrowywanie zeskanowanych plików PDF z wykorzystaniem technologii OCR w programie MapForce
date: 2025-10-28
categories:
  - etl
  - data-integration
tags:
  - mapforce
description: Technologia OCR jest ważna, ponieważ pozwala na odzyskanie kluczowych danych, które w przeciwnym razie byłyby uwięzione w zeskanowanych plikach PDF. Oto jak MapForce ułatwia ten proces.
---
Status: #blog

Tags:  #mapforce #etl #pdf #pdf-extractor #data-integration 

Categories:  [data-integration](/blog/pl/category/data-integration.md)| [etl](/blog/pl/category/etl.md)
# Odszyfrowywanie zeskanowanych plików PDF z wykorzystaniem technologii OCR w programie MapForce
Dla wielu organizacji pliki PDF stanowią zarówno kluczowe źródło danych, jak i poważną przeszkodę w procesach ETL (Extract, Transform, Load) oraz integracji danych. Chociaż nowoczesne pliki PDF, zawierające tekst, który można wybrać, są stosunkowo łatwe do przetworzenia, znacząca część danych krytycznych dla biznesu pozostaje uwięziona w zeskanowanych dokumentach – zdigitalizowanych archiwach papierowych, starych dokumentach i plikach opartych na obrazach, w których tekst istnieje jedynie jako piksele, a nie jako znaki rozpoznawane przez komputery. Wyzwaniem jest przekształcenie ich nieustrukturyzowanej zawartości w dane, które można wykorzystać.

Funkcja OCR (optyczne rozpoznawanie znaków) w programie MapForce PDF Extractor eliminuje tę lukę, przekształcając zawartość plików PDF opartych na obrazach w ustrukturyzowane dane, które można łatwo wyodrębnić i przetworzyć, a następnie przekształcić do innych formatów.

![Technologia OCR (rozpoznawania znaków optycznego) w laptopie](/blog/images/ocr-pdf.png)

<!--more-->

## Przekształcanie skanów w ustrukturyzowane dane

Organizacje, które przez dziesięciolecia gromadziły dokumenty w formie papierowej, stoją przed wyzwaniem, którego nie można rozwiązać jedynie poprzez digitalizację: skanowanie zachowuje wygląd dokumentu, ale nie jego dane, co sprawia, że zeskanowane pliki PDF stają się jedynie obrazami tekstu, których komputery nie mogą przeszukiwać ani przetwarzać. Dla inżynierów danych, którzy tworzą [potoki ETL](https://www.altova.com/pl/etl), oznacza to, że cenne informacje historyczne pozostają niedostępne, mimo że zostały „zdigitalizowane”. Wiele ważnych dokumentów, takich jak formularze pisane ręcznie, archiwalne raporty finansowe, dokumenty regulacyjne oraz zeskanowane umowy, należy do tej kategorii, co zmusza zespoły do polegania na ręcznym wprowadzaniu danych, obarczonym ryzykiem błędów, co spowalnia w przeciwnym razie zautomatyzowane procesy.

Dlatego też technologia OCR jest kluczowym elementem każdego projektu integracji danych PDF.

Technologia OCR (Optical Character Recognition) przekształca obrazy tekstu w rzeczywiste dane znaków, które mogą być przetwarzane przez aplikacje. W programie [MapForce PDF Extractor](https://www.altova.com/pl/mapforce/pdf-extractor), funkcje OCR pełnią rolę wstępnego przetwarzania, przekształcając zeskanowane dokumenty w taki sam, ustrukturyzowany format, jak pliki PDF zawierające tekst. Dzięki temu możliwe jest jednolite przetwarzanie danych, niezależnie od źródła dokumentu.

Implementacja MapForce opiera się na [Tesseract OCR](https://github.com/tesseract-ocr/tesseract), silniku rozpoznawania tekstu o otwartym kodzie źródłowym, który jest znany jako jeden z najdokładniejszych dostępnych. Technologia łączy tradycyjne metody rozpoznawania wzorców z nowoczesnymi podejściami wykorzystującymi sieci neuronowe LSTM (Long Short-Term Memory). Ta hybrydowa architektura zapewnia elastyczność w przetwarzaniu różnorodnych typów dokumentów i układów, przy jednoczesnym zachowaniu wysokiej dokładności w wielu językach, w tym w języku angielskim, niemieckim, francuskim, japońskim i hiszpańskim. (Oprogramowanie MapForce jest również dostępne w tych językach.)

Posiadając [Funkcja OCR zintegrowana z programem MapForce PDF Extractor](https://www.altova.com/pl/mapforce/pdf-extractor#ocr) stanowi to dużą zaletę. Zamiast zmuszać programistów do uruchamiania rozpoznawania znaków (OCR) jako oddzielnego etapu wstępnego, korzystając z zewnętrznych narzędzi, a następnie importując wyniki, MapForce integruje tę funkcję bezpośrednio w proces ekstrakcji danych z plików PDF, co pozwala zaoszczędzić czas _i_ umożliwia automatyzację.

## Od rozpoznawania tekstu na obrazach do ekstrakcji ustrukturyzowanych danych

Oczywiście, rozpoznawanie tekstu to tylko część rozwiązania. Aby zeskanowane treści były użyteczne, ten tekst musi zostać zorganizowany i przygotowany do dalszej obróbki. Prawdziwa wartość pojawia się, gdy ten tekst przekształcony jest w ustrukturyzowane dane, gotowe do analizy i transformacji.

Podczas wykonywania rozpoznawania tekstu (OCR) na zeskanowanym pliku PDF w programie MapForce, procesor wyświetla wykryty tekst w postaci drzewa obiektów. Nakładka na obraz dokumentu pokazuje, jak procesor rozpoznawania tekstu zidentyfikował słowa na obszarze skanu, wyświetlając rozpoznane słowa na zielono. Słowa oznaczone na czerwono nie zostały dodane do drzewa, ponieważ ich współczynnik pewności nie spełniał progu ustawionego przez procesor. Można edytować drzewo, a także słowa oznaczone na zielono i czerwono, ręcznie, w razie potrzeby, korzystając z prostych narzędzi opartych na interfejsie graficznym.

![Wykorzystanie technologii OCR do ekstrakcji danych z plików PDF w programie MapForce](/blog/images/ocr-pdf-data.png)

Po uzyskaniu zadowalających wyników rozpoznawania tekstu za pomocą OCR, rozpoznany tekst jest dodawany do standardowego procesu ekstrakcji danych w programie [MapForce PDF Extractor](https://www.altova.com/blog/2023/11/extract-data-for-pdf-mapping). Program PDF Extractor zawiera zaawansowany system sugestii, który automatycznie identyfikuje typowe elementy dokumentów, takie jak tabele i bloki tekstu, i próbuje wykryć ich strukturę. Można ją następnie dostosować, dzieląc zawartość na wiersze/kolumny, definiując reguły ekstrakcji w oparciu o nagłówki lub słowa kluczowe, itp. Zdefiniowany szablon odzwierciedla strukturę dokumentu, co umożliwia jego wykorzystanie do mapowania danych.

![Szablon do ekstrakcji danych z plików PDF](/blog/images/pdf-extraction-template.png)

Dzięki temu rozwiązaniu opartemu na szablonach, proces OCR jest wykonywany tylko raz, podczas tworzenia szablonu. Następnie, program MapForce może przetwarzać inne dokumenty o tym samym układzie, wykorzystując zapisane reguły ekstrakcji – nie ma potrzeby powtarzania procesu OCR. To oszczędza czas i zasoby w przypadku dużych projektów integracji danych lub procesów ETL, które przetwarzają ustandaryzowane formularze lub raporty.

Wyodrębnione dane przekształcane są w wizualną strukturę mapującą zawartość pliku PDF, którą następnie można dopasować do dowolnego obsługiwanego formatu docelowego (bazy danych, JSON, Excel, XML, EDI, Shopify, itp.). Wizualny sposób mapowania ułatwia definiowanie transformacji poprzez przeciąganie i upuszczanie, co pozwala na tworzenie połączeń między schematami źródłowymi i docelowymi. Obszerna biblioteka funkcji oraz narzędzie [Wizualny Konstruktor Funkcji](https://www.altova.com/pl/mapforce/visual-function-builder) umożliwiają konwersję typów danych, filtrowanie oraz implementację logiki warunkowej.

![Integracja danych PDF po procesie OCR](/blog/images/mapping-ocr-pdf.png)

W oparciu o zdefiniowane przez Państwa mapowanie danych, MapForce natychmiast przekształca dane. Alternatywnie, można skorzystać z zaawansowanej wersji MapForce Server, która zapewnia wysoką wydajność i automatyzację procesów.

Wypróbuj narzędzia OCR w programie PDF Extractor, korzystając z [bezpłatnej wersji próbnej MapForce](https://www.altova.com/pl/mapforce/download) już dziś!