PADアクション:PDFからテキストを抽出

PAD アクション説明

アクションの概要説明

<span class="red"><span class="blue">Robo2号</span></span>
Robo2号

今回は、「PDFからテキストを抽出」を説明していきます。このアクションはPDFファイルからテキストデータを取り出すことができます。

「PDFからテキストを抽出」をする場合、下記のようにアクションを開いてみましょう。

アクションの位置

アクションの展開はアクション名をダブルクリックするか、フロー画面へのドラッグで可能です。

アクション設定画面

取得したいPDFのファイルのパスを(赤枠)に入力します。直接ファイルパスを記載するか、変数でも指定できます。

抽出するページの設定方法

抽出するページは、以下の項目があり、プルダウンで選択が可能です。

  • すべて
  • 単一
  • 範囲

それぞれの機能を以下で説明します。

すべて

ファイル内、全てのテキストデータが取得できます。

単一

単一を選択すると、以下の赤枠が設定できるようになります。単一ページ番号の欄にデータを取得するPDFファイルの頁を数値で入力することで、指定した頁のテキストデータが取得できます。

範囲

範囲を選択すると、以下の赤枠が設定できるようになります。開始ページ番号の欄にデータを取得する最初の頁を、終了ページ番号の欄にデータを取得する最後の頁を数値入力することで、指定した範囲のテキストデータが取得できます。

詳細設定項目

詳細項目には、「パスワード」「構造化データに最適化」が設定できます。これら設定を解説します。

パスワード

データを取得したいPDFファイルにパスワードが設定されている場合、ファイルを開く際に赤枠にパスワードを入力しておくことで、PADでファイルを開くことができます。
もしPDFファイルにパスワードが設定されていない場合、空欄のままとしてください。

構造化データに最適化

「構造化データに最適化」のスイッチの効果について解説します。
構造化データに最適化を有効にする場合、青枠のスイッチをONします。
(初期値はOFFになっています)
以下のPDFファイルからデータ取得した場合、「構造化データの最適化」が、ON・OFFそれぞれの結果を確認してみましょう。
用途によって、メリット、デメリットありますのでお好みに応じて ご使用ください。

構造化データOFFの場合

データが左詰めで代入されます。

構造化データONの場合

PDFの元レイアウトにできるだけ準じた配置のデータとなります。
(位置合わせは空白が入っています)

使用上の注意事項

PDFファイルに埋め込まれている、テキストデータしかデータ取得ができません。OCRによるテキスト抽出機能はありませんので、ただのスキャンデータからの読み出しはできません。

Robo1号の感想

<span class="red">Robo1号</span>
Robo1号

近年、情報の多くはPDFファイルで提供されるので、業務の中でPDFからデータを取得する機会は増えているね。いままでは手動でPDFから転記していたけど、このアクションで効率的にPDFデータを活用しようと思っているよ!!


タイトルとURLをコピーしました