---
title: PDF 매핑을 위한 데이터 추출
date: 2023-11-06
categories:
  - data-integration
  - etl
tags:
  - data-integration
  - data-mapping
  - etl
  - pdf
  - pdf-extractor
description: MapForce PDF 추출기는 시각적인 도구로, PDF 파일에서 데이터를 추출하여 데이터 통합 및 ETL(추출, 변환, 로드)에 적합한 구조화된 형식으로 변환할 수 있습니다.
---
Status: #blog

Tags:  #data-integration #data-mapping #etl #pdf #pdf-extractor

Categories: [data-integration](/blog/ko/category/data-integration.md) | [etl](/blog/ko/category/etl.md)
# PDF 매핑을 위한 데이터 추출

Altova의 수상 경력에 빛나는 데이터 매핑 도구인 MapForce는 데이터 통합 및 ETL 워크플로우에서 PDF 입력을 지원합니다. MapForce PDF 추출기는 PDF 데이터를 구조화된 형식으로 추출하기 위한 규칙을 쉽게 정의할 수 있도록 지원하며, 이를 통해 추출된 데이터를 Excel, XML, JSON, 데이터베이스 등 다양한 형식으로 매핑하여 활용할 수 있습니다.

자, 이제 작동 방식을 살펴보겠습니다.

![](/blog/images/mapforce-pdf.png)

<!--more-->

## PDF 파일에서 데이터 추출하는 방법

PDF 파일 형식은 현재 다양한 분야에서 활용되며, 어떤 플랫폼이나 기기에서도 일관된 화면을 제공할 수 있다는 장점 덕분에 널리 사용되고 있습니다. PDF 파일은 텍스트, 이미지, 차트, 표 등 다양한 형식의 데이터를 결합하여 인간이 읽기 쉽도록 구성되며, 다양한 서식 옵션을 제공합니다.

하지만 PDF 파일은 데이터를 사용자 친화적인 방식으로 제시하는 데 유용하지만, 다른 비즈니스 시스템과의 통합을 위해 데이터를 효율적으로 추출하는 데 필요한 기본적인 구조가 부족합니다. 이는 흔히 요구되는 기능입니다. 기존의 데이터 추출 도구는 종종 PDF 파일에서 정확하게 정보를 추출하지 못하며, 특히 복잡한 레이아웃이나 다양한 서식 스타일을 사용할 때 문제가 발생합니다. 이로 인해 오류가 발생하고, 비효율성이 초래되며, 추출된 데이터를 수정하기 위해 수동 작업이 필요할 수 있습니다.

이러한 PDF 데이터 통합의 어려움을 해결하기 위해, Altova는 [MapForce PDF 익스 트랙터(Extractor)](https://www.altova.com/ko/mapforce/pdf-extractor)라는 시각적인 도구를 개발했습니다. 이 도구를 사용하면 PDF 파일에서 구조화된 데이터를 추출하기 위한 규칙을 쉽게 정의할 수 있습니다.

이 튜토리얼 영상을 통해 MapForce PDF 추출기가 어떻게 작동하는지 알아보세요

![](https://www.youtube.com/watch?v=iU-ZHrXoL3g)

MapForce PDF 추출기를 사용하는 가장 좋은 방법은 추출하고자 하는 데이터 형식을 가진 샘플 문서를 불러오는 것입니다. 이 문서는 송장, 데이터 입력 양식, 보고서, 고객 기록 등 다양한 형태일 수 있습니다. 만약 PDF 파일이 다른 문서의 스캔본이라면, 다음과 같이 할 수 있습니다 [OCR 기능으로 시작하세요](ocr-support-in-mapforce) 데이터를 추출할 수 있도록 데이터를 해제하고 준비하는 과정입니다. 

PDF 추출기는 사용자가 샘플 문서를 확인하고, 데이터를 체계적으로 추출하기 위한 템플릿과 규칙을 정의할 수 있도록 지원합니다. MapForce PDF 추출기의 간편한 디자인 덕분에 사용자는 마우스 클릭 및 드래그 앤 드롭 기능을 활용하여 PDF 문서의 구조를 시각적으로 쉽게 지정할 수 있습니다.

PDF 미리보기 창 옆에는 스키마 창이 표시되며, 이 창은 PDF 파일이 어떻게 분석되고 데이터가 추출될지를 나타내는 트리 구조를 보여줍니다.

[![MapForce PDF 추출기를 사용하여 PDF 파일에서 데이터를 추출합니다](/blog/images/extract-data-from-pdf.png)](extract-data-from-pdf.png)

속성 창을 사용하면 필요에 따라 속성을 정의하고 수식을 계산할 수 있습니다. PDF 문서 보기 창 하단에는 결과 미리보기를 확인할 수 있는 출력 창(위 그림 참조)이 있습니다 [PDF 데이터 추출](https://www.altova.com/ko/mapforce/pdf-extractor) 사용자가 정의한 속성 및 추출 규칙에 따라 결과가 생성됩니다. 결과는 XML 문서 형태로 표시되며, 이 문서에는 추출 대상 파일의 구조를 나타내는 XML 태그와 함께 실제 파일 내용이 포함됩니다.

문서의 특정 부분을 선택하여 스키마 트리에 추가하려면, 원하는 영역을 선택한 후 마우스 오른쪽 버튼을 클릭하여 텍스트 추출 기능을 사용하면 됩니다. 

[![PDF 파일의 텍스트를 추출합니다 ](/blog/images/capture-pdf-text.png)](capture-pdf-text.png)

새로 생성된 요소를 원하는 위치로 드래그하여 이동시키고, 설명적인 이름을 지정해 주세요.

[![PDF 파일에서 텍스트를 추출하여 스키마의 올바른 위치에 배치하세요 ](/blog/images/pdf-structure-tree.png)](pdf-structure-tree.png)

MapForce PDF 추출기는 데이터 추출 규칙을 수동으로 정의하는 기능 외에도 강력한 제안 엔진을 포함하고 있습니다. 이 엔진은 문서의 일반적인 요소들을 자동으로 식별하고, 해당 요소들의 구조를 파악하려고 시도합니다. 예를 들어, 제안 엔진은 문서 내에 존재하는 표를 식별하며, 사용자는 이 표를 자동으로 추출하고 필요에 따라 수정할 수 있습니다. 스키마 창에 있는 분할 기능은 표를 개별 행으로 정확하게 분할하는 방법을 정의하는 데 도움을 줍니다. 제안 엔진은 표의 경계선이나 선을 찾아 분할하거나, 고정된 거리로 분할하거나, 배경색의 변화를 감지하여 분할을 수행할 수 있습니다. 사용자는 PDF 미리보기 창에서 이러한 분할 결과를 미리 확인할 수 있습니다. 동시에, 제안 엔진은 열과 헤더 텍스트를 추출하며, 사용자는 위 영상에서 볼 수 있듯이 필요에 따라 이러한 추출 결과를 세밀하게 조정할 수 있습니다.

스키마 트리에서 어떤 객체를 클릭하면, 해당 객체와 관련된 구조 및 데이터 추출 규칙이 PDF 문서 보기에서 어떻게 적용되는지 강조 표시됩니다.

[![PDF 문서 내 표에서 데이터를 추출합니다](/blog/images/extract-PDF-table-data.png)](extract-PDF-table-data.png)

## 지도를 PDF 파일에서 다른 형식으로 변환하기

MapForce PDF 추출기에서 템플릿을 완성하면, 해당 템플릿을 MapForce 데이터 매핑 프로젝트에 추가하여 PDF 데이터를 다른 지원되는 형식으로 효율적으로 변환할 수 있습니다. 소스 노드와 대상 노드를 연결하려면 간단히 드래그 앤 드롭하면 되고, 내장된 데이터 처리 함수 라이브러리를 활용하여 PDF 데이터를 변환할 수 있습니다. 일반적인 활용 분야는 다음과 같습니다

- PDF 파일을 엑셀 파일로 변환합니다

- PDF 파일을 XML 형식으로 변환합니다

- PDF 파일을 JSON 형식으로 변환합니다

- PDF 파일을 SQL 또는 NoSQL 데이터베이스 시스템으로 변환

- PDF 파일을 EDI 메시지로 변환

- PDF 파일을 CSV 또는 텍스트 형식으로 변환합니다

이러한 시나리오 외에도, MapForce는 데이터 매핑 프로세스를 체인 방식으로 연결하는 기능과 다양한 소스 및 대상 데이터 구조를 지원합니다.

![MapForce에서 PDF 파일을 JSON 형식으로 변환하는 방법](/blog/images/PDF-to-JSON.png)

MapForce는 사용자가 정의한 데이터 매핑 규칙에 따라 데이터를 즉시 변환합니다. 또한, MapForce Server Advanced Edition을 사용하면 PDF 파일 변환 및 ETL(추출, 변환, 로드) 파이프라인을 반복적으로 실행할 수 있습니다. 이를 통해 기업은 데이터 통합을 자동화하고, 기존 시스템, 데이터베이스 및 워크플로우에 PDF 데이터를 원활하게 통합하여 프로세스를 효율화할 수 있습니다.

MapForce PDF 추출기를 사용하려면, Altova 웹사이트에서 무료 평가판을 [다운로드](https://www.altova.com/ko/mapforce/download)하여 시작하십시오.