PDF 데이터에서 필요한 정보를 추출하여 데이터 매핑에 활용합니다

MapForce PDF 추출기

  • PDF 파일에서 데이터를 추출하기 위한 규칙을 간편하게 설정할 수 있습니다
  • PDF 파일을 다른 형식으로 변환하기 위한 템플릿을 만드세요
  • 시각적인 인터페이스와 클릭 방식으로 조작이 가능한 방식
  • 자동 추출을 위한 강력한 추천 엔진
  • 정보 조각들을 추출하고, 조합하여 활용하십시오
  • 스캔된 PDF 파일에 대한 광학 문자 인식(OCR) 기능
  • 표 안에 있는 데이터를 추출하는 데 유용한 고급 도구입니다
  • 데이터를 쉽게 그룹으로 분류할 수 있습니다
  • 템플릿 결과를 미리보기하기 위한 스키마 트리
  • 맵 데이터를 PDF, Excel, 데이터베이스, JSON, CSV 등 다양한 형식으로 변환합니다
  • MapForce 서버를 사용하여 PDF 매핑을 자동화하세요

PDF 데이터 추출

오늘날 비즈니스에서 PDF는 널리 사용되는 데이터 형식이지만, PDF에 포함된 데이터는 다른 시스템으로 쉽게 전송하거나 활용하기 어렵습니다. PDF는 일반적으로 사람이 읽기 쉽도록 다양한 형식과 레이아웃으로 디자인되어 있어, 체계적인 데이터 추출이 매우 어렵습니다. PDF는 텍스트, 이미지, 표 등 다양한 요소를 포함할 수 있으며, 데이터는 기계가 읽을 수 있는 형식으로 구성되어 있지 않습니다. 일반적인 PDF 데이터 추출 도구는 특히 복잡한 레이아웃을 가진 PDF의 경우 정확한 결과를 제공하지 못할 수 있습니다. 바로 여기서 MapForce PDF 추출기가 유용하게 활용됩니다.

MapForce PDF 추출기는 사용하기 쉬운 유틸리티로, PDF 문서의 구조를 빠르고 쉽게 정의하고, 문서에서 데이터를 추출할 수 있습니다. 추출된 PDF 데이터는 MapForce 내에서 추가적인 변환 및 XML, JSON, 데이터베이스, 엑셀 등 다양한 형식으로의 변환 작업을 수행하는 데 활용될 수 있습니다. 이는 PDF 데이터 통합 및 ETL 프로젝트를 위한 최고의 도구입니다.

MapForce PDF 추출기를 사용하면 시각적인 도구를 활용하여 PDF 문서의 구조를 정의하고, 효율적으로 데이터를 추출할 수 있습니다. PDF 추출기는 매우 유연한 도구로, 전체 문서가 아닌 특정 부분의 텍스트만 추출하거나, 동일한 PDF 파일의 여러 페이지에서 정보를 조합하고, 표를 행 단위로 분리하거나, 데이터를 그룹으로 정리하는 등의 작업을 수행할 수 있습니다.

MapForce PDF 추출기를 사용하여 PDF 데이터를 추출하여 변환 작업을 수행할 수 있습니다

MapForce PDF 추출기는 직관적이고 간편한 디자인을 갖추고 있어, 클릭 및 드래그 앤 드롭 기능을 활용하여 PDF 문서의 구조를 시각적으로 쉽게 정의할 수 있습니다. 이제까지 PDF 파일에 갇혀 있던 방대한 양의 데이터를 다른 형식으로 변환하여 활용할 수 있게 되었습니다.

MapForce PDF 추출기 사용 방법을 알아보세요

OCR(광학 문자 인식) 기술부터 시작합니다

PDF 추출기에서는 텍스트 기반 PDF 파일을 바로 사용할 수 있습니다. 하지만 많은 PDF 파일은 실제로 스캔된 문서, 즉 이미지 파일입니다. OCR(광학 문자 인식) 기능을 통해 MapForce는 이러한 이미지를 선택하고 검색할 수 있는 텍스트로 변환하여 추출할 수 있도록 지원합니다. 이를 통해 MapForce PDF 추출기는 오래된 문서, 디지털화된 종이 기록, 스캔 또는 손으로 작성된 양식 등 다양한 종류의 파일을 처리할 수 있습니다.

MapForce에서 스캔된 PDF 파일에 대해 OCR(광학 문자 인식)을 실행하면, 프로세서는 인식된 내용을 객체 트리 형태로 표시합니다. 문서 자체 위에 겹쳐서 보여지는 화면에서는 OCR 프로세서가 스캔 영역에서 어떤 단어를 인식했는지 보여주며, 인식된 단어는 녹색으로 표시됩니다. 빨간색으로 강조 표시된 단어들은 프로세서의 설정 기준을 충족하지 못했기 때문에 트리에 추가되지 않았습니다. 필요에 따라 트리를 편집하거나, 녹색 및 빨간색 단어를 수동으로 수정할 수 있습니다.

데이터의 일부만 필요하거나, 대용량 문서를 다룰 때, 마우스를 사용하여 스캔 영역을 지정하면 문서의 특정 영역에 대해서만 OCR(광학 문자 인식)을 한 번에 수행할 수 있습니다.

PDF 데이터에서 텍스트를 추출하기 위한 광학 문자 인식(OCR) 기술

OCR(광학 문자 인식) 작업과 편집이 완료되면, 결과를 저장하고 PDF 추출기에서 PDF 데이터 추출 규칙을 계속 생성할 수 있습니다.

PDF 데이터 추출 방법

샘플 PDF 파일을 불러와 템플릿을 생성하고 데이터 추출 규칙을 정의할 때, PDF 파일은 스키마 패널 옆에 표시됩니다. 스키마 패널은 데이터가 어떻게 추출될지를 나타내는 트리 구조를 보여줍니다. MapForce PDF 추출기는 강력한 제안 기능을 포함하고 있으며, 이 기능은 일반적인 문서 요소를 자동으로 식별하고 해당 구조를 파악하려고 시도합니다.

예를 들어, 제안 엔진은 문서 내에 존재하는 표를 식별하며, 사용자는 이를 자동으로 추출하도록 선택할 수 있습니다. 스키마 패널에 있는 분할 기능은 표를 개별 행으로 정확하게 분할하는 방법을 정의하는 데 도움을 줍니다. 제안 엔진은 표의 경계선이나 선을 찾아 분할을 수행하거나, 예를 들어 고정된 거리로 분할하는 방식을 사용할 수 있으며, 사용자는 PDF 보기 패널에서 이를 미리 확인할 수 있습니다. 동시에, 제안 엔진은 열과 헤더 텍스트를 추출합니다. 스키마 트리에서 어떤 객체를 클릭하면, 해당 구조와 PDF 문서 보기에서 적용되는 데이터 추출 규칙이 강조 표시됩니다.

MapForce를 사용하여 PDF 데이터 추출하는 방법

많은 표가 포함된 대용량 PDF 문서의 경우, 문서 내 특정 텍스트(예: 제목)를 검색하고, 해당 텍스트와 관련된 데이터를 처리하는 규칙을 정의하는 것이 유용할 수 있습니다. 예를 들어, 연간 재무 보고서에서 데이터를 추출하는 템플릿을 만들 때, "지출"이라는 단어를 검색하고, 해당 텍스트 다음에 나오는 표의 데이터를 적절하게 처리할 수 있습니다. 대소문자 구분, 서식 필터링(글꼴, 글꼴 두께 등), 전체 단어 또는 일부 단어 검색과 같은 세밀한 검색 옵션을 통해 정확한 검색이 가능합니다.

MapForce PDF 추출기에서의 텍스트 검색 기능

표 형태의 데이터가 추출된 후에는 필요에 따라 추출 규칙을 조정하여 특정 부분을 제외하거나, 기준점 설정을 변경하거나, 표의 경계를 정의하는 등의 작업을 수행할 수 있습니다. 이러한 작업은 시각적인 도구와 편리한 드롭다운 메뉴를 사용하여 간편하게 처리할 수 있습니다. 데이터 추출 결과를 출력 트리에 미리 보면서 정확도를 확인할 수 있습니다.

다른 문서 요소들도 수동으로 추출하여 템플릿에 추가할 수 있습니다. 데이터를 수동으로 추출하기 위한 규칙을 정의하려면, PDF 문서에서 추출할 영역을 사각형으로 표시하여 선택합니다. 그런 다음, 마우스 오른쪽 버튼을 클릭하여 나타나는 메뉴에서 "텍스트 추출"을 선택합니다. PDF 추출기는 추출된 내용을 문서 트리 내의 요소로 추가하며, 사용자는 이 요소를 원하는 위치로 드래그 앤 드롭하여 배치할 수 있습니다.

데이터 매핑을 위해 PDF 파일을 추출합니다

작업을 진행하는 동안, MapForce PDF 추출기는 출력 창에 PDF 템플릿의 구조를 나타내는 XML 문서를 생성하며, 작업 중인 PDF 문서에서 추출된 샘플 데이터를 포함합니다. 이를 통해 추출 결과가 MapForce에서 사용할 템플릿으로 어떻게 활용될 수 있는지 이해하고, 추출 결과를 완벽하게 다듬을 수 있습니다.

추출된 데이터를 미리보기합니다

PDF 데이터 변환

MapForce PDF 추출기에서 템플릿을 저장하면, 해당 템플릿을 MapForce 데이터 매핑 프로젝트에서 소스 데이터 구성 요소로 삽입할 준비가 완료됩니다. 일반적인 PDF 변환 요구 사항은 다음과 같습니다

  • PDF 파일을 엑셀 파일로 변환합니다
  • PDF 파일을 데이터베이스(SQL 또는 NoSQL)로 변환
  • PDF 파일을 JSON 형식으로 변환합니다
  • PDF 파일을 CSV 파일로 변환합니다
  • PDF 파일을 XML 형식으로 변환합니다
  • PDF 파일을 Shopify 또는 GraphQL 형식으로 변환합니다

물론, MapForce는 다양한 소스 및 대상 데이터 형식과 연계된 데이터 매핑 프로젝트 등 다양한 조합이 가능합니다. 풍부한 데이터 처리 기능 라이브러리와 시각적인 함수 빌더를 통해 데이터를 목적지(들)에 기록하기 전에 쉽게 필터링하고 처리할 수 있습니다.

MapForce에서 PDF 파일을 JSON 형식으로 변환합니다

PDF 추출 기능을 통해 MapForce는 이전에 PDF 파일 내에 갇혀 있던 중요한 비즈니스 데이터를 데이터 매핑, 데이터 통합 및 ETL 프로세스에 활용할 수 있도록 지원합니다.

“Altova MapForce는 뛰어난 매핑 기능을 제공하며, 이를 저희 핵심 제품에 완벽하게 통합할 수 있습니다. 또한, 이 제품의 확장성은 저희 솔루션의 모든 요구 사항을 충족할 수 있도록 해줍니다.”

Scott Redford Visionware