MapForce에서 OCR 기능을 활용하여 스캔된 PDF 파일의 내용을 추출하는 방법

많은 조직에서 PDF 파일은 중요한 데이터 소스인 동시에 ETL(추출, 변환, 적재) 및 데이터 통합 프로세스에서 해결하기 어려운 문제로 작용합니다. 최신 PDF 파일 중에는 선택 가능한 텍스트가 포함되어 있어 비교적 쉽게 처리할 수 있는 것들이 있지만, 여전히 상당량의 중요한 비즈니스 데이터는 스캔된 문서, 디지털화된 종이 기록, 이미지 기반 파일 등에서 텍스트가 기계가 읽을 수 있는 문자가 아닌 픽셀 형태로만 존재합니다. 문제는 이러한 비정형 콘텐츠를 활용 가능한 데이터로 변환하는 데 있습니다.

MapForce PDF 추출기에서 제공하는 OCR(광학 문자 인식) 기능은 이러한 문제를 해결하며, 이미지 기반 PDF 파일의 내용을 구조화된 데이터로 변환하여, 다른 형식으로 처리하고 매핑할 수 있도록 지원합니다.

스캔 데이터를 체계화된 정보로 변환합니다

수십 년 동안 종이 기록을 관리해 온 기관들은 디지털화만으로는 해결할 수 없는 과제에 직면합니다. 스캔은 문서의 외관은 보존하지만, 그 안에 담긴 데이터는 보존하지 못합니다. 따라서 스캔된 PDF 파일은 컴퓨터가 검색하거나 처리할 수 없는 단순한 텍스트 이미지로 남게 됩니다. 데이터 엔지니어들이 구축하는 시스템에서는 ETL 파이프라인, 이는 중요한 역사적 정보가 "디지털화"되었음에도 불구하고 여전히 접근 불가능한 상황을 의미합니다. 손으로 작성된 서류, 기존 금융 보고서, 규제 관련 문서, 스캔된 계약서 등 필수적인 문서들이 이 범주에 속하며, 이로 인해 관련 부서들은 수동으로 데이터를 입력해야 하는 경우가 발생하고, 이는 자동화될 수 있는 업무 프로세스를 지연시킵니다.

바로 그 이유 때문에, OCR(광학 문자 인식)은 PDF 데이터 통합 프로젝트의 핵심 구성 요소입니다.

OCR(광학 문자 인식) 기술은 텍스트 이미지를 애플리케이션에서 처리할 수 있는 실제 문자 데이터로 변환합니다. MapForce PDF Extractor에서 OCR 기능은 스캔된 문서를 텍스트 기반 PDF와 동일한 구조화된 형식으로 변환하는 전처리 단계로 작동합니다. 이를 통해 원본 문서의 출처와 관계없이 일관된 후속 처리가 가능합니다.

MapForce는 Tesseract OCR 기술을 기반으로 구현되었으며, 이 기술은 높은 정확도를 자랑하는 오픈 소스 인식 엔진 중 하나입니다. 이 기술은 기존의 패턴 인식 방식과 최신 LSTM(Long Short-Term Memory) 신경망 기술을 결합하여 다양한 문서 유형과 레이아웃을 처리할 수 있는 유연성을 제공합니다. 또한 영어, 독일어, 프랑스어, 일본어, 스페인어 등 여러 언어에 걸쳐 높은 정확도를 유지합니다. (MapForce 소프트웨어 자체도 이러한 언어로 제공됩니다.)

가지고 있다 MapForce PDF 추출기에 내장된 광학 문자 인식(OCR) 기능 이는 큰 장점입니다. 개발자들이 외부 도구를 사용하여 OCR을 별도의 전처리 단계로 실행하고, 그 결과를 다시 가져오는 번거로운 과정을 거치는 대신, MapForce는 OCR 기능을 PDF 추출 워크플로우에 직접 통합하여 시간을 절약합니다 그리고 자동화를 지원합니다.

OCR 기술을 활용한 정형 데이터 추출

물론, 텍스트 인식은 문제 해결의 일부일 뿐입니다. 스캔된 내용을 실제로 활용하려면, 해당 텍스트를 추가적인 처리를 위해 체계적으로 정리해야 합니다. 진정한 가치는 그 텍스트가 매핑 및 변환을 위해 준비된 구조화된 데이터로 변환될 때 나타납니다.

MapForce에서 스캔된 PDF 파일에 대해 OCR(광학 문자 인식)을 실행하면, 프로세서는 인식된 내용을 객체 트리 형태로 표시합니다. 문서 자체 위에 겹쳐서 보여주는 화면에서는 OCR 프로세서가 스캔 영역에서 어떤 단어를 인식했는지 보여주며, 인식된 단어는 녹색으로 표시됩니다. 빨간색으로 강조 표시된 단어들은 프로세서의 설정 기준을 충족하지 못했기 때문에 트리에 추가되지 않았습니다. 사용자는 간단한 클릭 방식으로 제공되는 도구를 사용하여 트리를 편집하고, 필요에 따라 녹색 및 빨간색 단어를 수동으로 수정할 수 있습니다.

OCR 결과가 만족스러우면, 인식된 텍스트가 MapForce PDF 추출기의 표준 추출 워크플로우에 추가됩니다 PDF 추출기는 강력한 제안 기능을 내장하고 있어, 테이블이나 텍스트 블록과 같은 일반적인 문서 요소를 자동으로 식별하고, 그 구조를 파악하려고 시도합니다. 사용자는 필요에 따라 콘텐츠를 행/열로 분리하거나, 헤더나 키워드를 기반으로 추출 규칙을 설정하는 등 구조를 개선할 수 있습니다. 사용자가 정의하는 템플릿은 문서의 구조를 반영하여 매핑 작업을 용이하게 합니다.

이 템플릿 기반 설정에서는 OCR이 템플릿이 생성될 때 단 한 번만 실행됩니다. 그 이후에는 MapForce가 저장된 추출 규칙을 사용하여 동일한 레이아웃을 가진 다른 문서를 처리할 수 있으며, OCR을 반복할 필요가 없습니다. 이는 표준화된 양식이나 보고서를 처리하는 대량 데이터 통합 또는 ETL 작업에서 시간과 자원을 절약해 줍니다.

추출된 데이터는 PDF 파일의 내용을 시각적으로 표현하는 구조로 변환되며, 이를 다양한 대상 형식(데이터베이스, JSON, 엑셀, XML, EDI, Shopify 등)에 매핑할 수 있습니다. 이 시각적인 매핑 방식을 통해 드래그 앤 드롭 방식으로 소스 및 대상 스키마 간의 연결을 쉽게 설정하고, 포괄적인 함수 라이브러리와 시각적 함수 빌더를 사용하여 데이터 유형 변환, 필터링 및 조건부 로직을 처리할 수 있습니다.

제공하신 데이터 매핑 정의를 기반으로, MapForce는 데이터를 즉시 변환합니다. 또는, 고성능 자동화를 위해 MapForce Server 고급 버전을 활용하실 수도 있습니다.

PDF 추출 프로그램에 포함된 OCR(광학 문자 인식) 기능을 사용해 보세요 MapForce 무료 체험 버전 오늘!