PDFデータから情報を抽出して、データマッピングを行います

MapForce PDF抽出ツール

  • PDFファイルからデータを抽出するためのルールを、簡単に設定できます
  • PDFファイルを他の形式に変換するためのテンプレートを作成します
  • 視覚的な、クリック操作によるインターフェース
  • 自動抽出のための、高性能な提案機能
  • 情報を切り出し、組み合わせて活用する
  • スキャンされたPDFファイルに対する光学文字認識(OCR)処理
  • テーブル形式のデータ抽出を支援する、高度なツール
  • データを簡単にグループ化できます
  • テンプレートの結果をプレビューするためのスキーマツリー
  • 地図データをPDFからExcel、データベース、JSON、CSVなどの形式に変換します
  • MapForce Serverを使用すると、PDFデータのマッピングを自動化できます

PDFデータ抽出

今日のビジネスにおいて、PDFは非常に一般的なデータ形式ですが、PDFに含まれるデータは、他のシステムに容易に連携できる形式ではありません。PDFは、通常、人間が読みやすいように、可変の書式やレイアウトで設計されているため、構造化されたデータの抽出は非常に困難です。PDFには、テキスト、画像、表など、さまざまな要素が含まれており、データは機械が読み取れる形式で整理されていません。一般的なPDFデータ抽出ツールでは、特に複雑なレイアウトのPDFの場合、正確な結果が得られないことがあります。そこで、MapForce PDF Extractorが登場します。

MapForce PDF抽出ツールは、使いやすいユーティリティで、PDFドキュメントの構造を迅速に定義し、そこからデータを抽出することができます。抽出されたPDFデータは、MapForce上でさらに加工・変換され、XML、JSON、データベース、Excelなど、他の形式に変換することができます。このツールは、PDFデータの統合やETLプロジェクトを実現するための最適なツールです。

MapForce PDFエクストラクターでは、視覚的なツールを使用して、PDFドキュメントの構造を定義し、効率的にデータを抽出することができます。PDFエクストラクターは非常に柔軟なツールであり、ドキュメント全体ではなく、特定のテキスト部分のみを抽出したり、同じPDFファイル内の異なるページから情報を組み合わせて抽出したり、表を各行に分割したり、データをグループ化して整理したりすることが可能です。

MapForce PDFエクストラクターを使用して、変換のためにPDFデータにアクセスできます

MapForce PDFエクストラクターは、直感的でシンプルな設計となっており、クリックやドラッグ&ドロップ操作を通じて、PDFドキュメントの構造を視覚的に簡単に定義できます。これにより、これまでPDFファイル内に閉じ込められていた大量のデータが、他の形式に変換できるようになりました。

MapForce PDF抽出機能の使い方を学びましょう

光学文字認識(OCR)から始めます

PDFエクストラクターでは、テキストベースのPDFであれば、すぐに使い始めることができます。しかし、多くのPDFは実際にはスキャンされた画像データであり、テキストが含まれていません。OCR(光学文字認識)機能により、MapForceはこれらの画像を、選択可能で検索可能なテキストに変換し、抽出できるようになります。これにより、MapForce PDFエクストラクターは、古い文書、デジタル化された紙媒体のアーカイブ、スキャンされたフォーム、手書きのフォームなど、さまざまな種類の入力データを処理することができます。

MapForceでスキャンされたPDFに対してOCR処理を行うと、処理エンジンは認識された内容をオブジェクトのツリー構造で表示します。同時に、元のドキュメント上にオーバーレイが表示され、OCRエンジンがスキャン領域内の単語をどのように認識したかを示します。認識された単語は緑色で表示されます。赤色で強調表示されている単語は、認識の確度スコアがエンジンの設定値に達しなかったため、ツリー構造に追加されていません。必要に応じて、このツリー構造や、緑色および赤色の単語を手動で編集することができます。

データの一部のみが必要な場合、または大量の文書を扱う場合に、マウスを使ってスキャン範囲(ScanArea)を指定することで、文書の一部分ずつに光学文字認識(OCR)を実行できます。

PDFデータからの情報抽出のための光学文字認識(OCR)技術

OCR処理と編集が完了したら、結果を保存し、PDFエクストラクターでPDFデータ抽出ルールを作成し続けることができます。

PDFデータを取り出す方法

テンプレートを作成し、データ抽出ルールを定義するためにサンプルPDFファイルを読み込む際、そのPDFファイルはスキーマ表示領域の隣に表示されます。スキーマ表示領域には、データがどのように抽出されるかを示すツリー構造が表示されます。MapForce PDF Extractorには、強力な提案機能が搭載されており、一般的なドキュメント要素を自動的に識別し、その構造を検出しようとします。

例えば、提案エンジンは、ドキュメント内に存在するテーブルを特定し、それらを自動的に抽出するかどうかを選択できます。スキーマ表示領域にある分割機能を使用すると、テーブルを適切に個別の行に分割する方法を定義できます。提案エンジンは、テーブルの分割に使用する境界線や区切り線を探したり、固定距離に基づいて分割したりすることができます。これらの設定は、PDF表示領域でプレビューできます。同時に、提案エンジンは、テーブルの列やヘッダーテキストも認識します。スキーマツリー内の任意のオブジェクトをクリックすると、PDFドキュメント表示における対応する構造とデータ抽出ルールが強調表示されます。

MapForceを使ったPDFデータの抽出方法

大量の表を含む大規模なPDF文書では、文書内のテキスト(例えば、ヘッダー)を検索し、そのテキストに関連するデータの処理ルールを定義することが役立つ場合があります。例えば、年次財務報告書からデータを抽出するためのテンプレートを作成する場合、「支出」というテキストを検索し、そのテキストに続く数値表を適切に処理することができます。大文字・小文字の区別、書式フィルター(フォント、フォントの太さなど)、および完全一致または部分一致の検索など、詳細な検索オプションを使用することで、より正確な対象を特定できます。

MapForce PDF抽出機能におけるテキスト検索機能

表形式のデータが抽出された後、必要に応じて抽出ルールを調整することができます。具体的には、不要な部分を排除したり、アンカーの割り当てを変更したり、テーブルの境界線を定義したりすることが可能です。これらの調整は、視覚的なツールや便利なドロップダウンメニューを使用して行うことができます。抽出されたデータの精度を確認するために、出力ツリーで結果をプレビューすることができます。

他のドキュメント要素も、手動で選択してテンプレートに追加できます。手動でデータを抽出するためのルールを設定するには、PDF内の抽出したい領域を長方形で囲んで選択します。その後、右クリックメニューから「テキストの抽出」を選択します。PDF Extractorは、選択した領域をドキュメントツリー内の要素として追加し、ドラッグ&ドロップでツリー内の希望の位置に移動できます。

PDFファイルからデータを抽出して、データマッピングを行います

MapForce PDFエクストラクターは、作業を進めるにつれて、XMLドキュメントを構築します。このXMLドキュメントは、PDFテンプレートの構造を表し、作業中のPDFドキュメントから抽出されたサンプルデータを出力ウィンドウに表示します。これにより、MapForceで使用するテンプレートとなる抽出結果を理解し、完璧に調整することができます。

抽出されたデータをプレビューします

PDFデータを変換する

MapForce PDF抽出ツールでテンプレートを保存すると、そのテンプレートをMapForceのデータマッピングプロジェクトにおけるデータソースとして利用できるようになります。一般的なPDF変換の要件としては、以下のようなものがあります

  • PDFファイルをExcel形式に変換する
  • PDFファイルをデータベース(SQLまたはNoSQL)に変換する
  • PDFファイルをJSON形式に変換する
  • PDFファイルをCSV形式に変換する
  • PDFファイルをXML形式に変換する
  • PDFファイルをShopifyまたはGraphQL形式に変換する

もちろん、MapForceは、複数のソースデータ形式とターゲットデータ形式を組み合わせたり、複数のデータマッピングプロジェクトを連携させたりすることも可能です。豊富なデータ処理機能ライブラリと、視覚的な関数作成ツールにより、データを宛先へ書き込む前に、簡単にデータのフィルタリングや処理を行うことができます。

MapForceでPDFファイルをJSON形式に変換します

MapForceのPDF抽出機能により、これまでPDFファイル内に閉じ込められていた重要なビジネスデータが、データマッピング、データ統合、そしてETL(抽出、変換、ロード)プロセスにおいて利用できるようになりました。

“Altova MapForceは、優れたデータ変換機能を備えており、これを弊社の主要製品にシームレスに組み込むことができます。また、この製品の拡張性は高く、弊社のソリューションに必要なすべての要件に対応できます。”

Scott Redford Visionware