top of page

PADのOCR機能を検証してみた

皆さん、こんにちは。

前回記事では、Windows11のパソコンには標準搭載されており、無料で利用可能なRPAツール、MicrosoftのPower Automate for Desktop(PAD)の概要について紹介しました。


◇前回の記事「低コストで導入できるRPAツール『PAD』とは?」(2023/10/3)


次に、実際に私がPADを使って、自分の困っていた仕事を自動化で解決した例をご紹介し、RPAのイメージを掴んでいただければと思います。

RPAを表すイメージ写真

PDAファイルの名前に日付を付けたい

私は日本経済新聞の電子版を読んでいるのですが、気になる記事があると、PDFファイルでダウンロードして保存し、タグを付けてデータベース(Evernote)に保存しています。

以前は、ダウンロードしたPDFのファイル名には、「20231010」のように掲載日を表す文字が含まれていたのですが、昨年あたりから変更となり、ファイル名を見ただけではいつ掲載の記事なのか、分からなくなりました。

掲載日は、PDFファイルの中の最下部に「掲載日2023年10月10日 日本経済新聞・・・」のように記載されているだけなので、いちいちファイルを開かないと分かりません。

なんとかして、PDFファイルから掲載日を読み取って、ファイル名に付加するという作業を簡単にできないものかと、ずっと思っており、今回PADを使って自動化してみようと考えました。

私がRPAでやろうとした内容の説明イラスト

OCR機能でPDFから文字を読み取る

この作業のポイントとしては、対象となる日経新聞記事のPDFからOCR(Optical Character Recognition)機能で、掲載日の部分の文字を読み取ることが必要となります。

PADには無料で利用できるOCRエンジンとして、Windows OCRエンジンが用意されている他、別途Tesseractエンジンをインストールして無料で利用することもできるため、まずこの機能を使って読み取りを試してみることとしました。

Tesseractエンジンのほうが読み取り精度が高いといった評価のようなので、こちらのサイトなどを参考に、Tsseractエンジンおよび日本語言語ファイルをインストールして、まずは簡単なテストフローを作って試してみました。


「Power Automate DesktopでPDFから文字列を抽出する」


ところがなかなかうまくいきません。

読み取った文字列を表示させてみると、きちんと読み取れているものもありますが、そもそも読み取れなかったり、変な文字列や誤った日付で読み取っていたりするものもあり、精度がかなり悪いということが分かりました。

Windows OCRエンジンのほうも試しましたが、これも似たような精度でした。

これでは目的を果たせないので、方針転換し、まずOCRのソフトやサービスを使ってPDFを読み取ることを先にやっておいて、その後の作業をPADで自動化するという流れにするため、まず正確にPDFの記事ファイルから掲載日を読み取れるOCRソフトを探すことにしました。

OCR機能は、無料のものも含め、インストール版のソフトウェアや、Webサービスとして提供されているものなど、多数あります。

ただ、いろいろ試してみましたが、結論として無料版のソフトやサービスでは期待する機能が得られないことが分かりました。

精度の高いサービスであっても、1日に1ファイルしか利用できないなど、かなり制約があります。

以前よりPDFソフトの導入を検討していたこともあり、これを機に思い切って有料ソフト、ソースネクストの「いきなりPDF Ver10 COMPLETE」を使ってみることにしました。

ソースネクスト「いきなりPDF」のOCR機能はかなりの高精度

PDFソフトと言えば、Adobe社のAcrobatが有名ですが、Standard版でも月額およそ1,500円のサブスク型とかなり高額です。

一方、自動通訳機「ポケトーク」でも有名なソースネクストの製品「いきなりPDF」は、高機能なPDFソフトウェアながら、買い切り型の9,900円とリーズナブルな価格で、以前から気になっていました。

まず体験版をダウンロードして、新聞記事PDFから掲載日を読み取る実験をしてみたところ、次のような結果が得られました。

OCR精度を比較した検証結果の表

ランダムに選んだ10件の新聞記事PDFファイルで試したところ、完璧に読み取ることができました。

他にも何度も試しましたが、まれに誤って読み取ることもあるものの、かなりの高精度であることは確認できました。

やはり無料版ソフトとは雲泥の差があるようです。

この件のためだけでなく、PDFファイル編集などのために、以前からPDFソフトの導入を検討していましたので、「いきなりPDF」の正式版を、キャンペーン価格7,900円で購入して使うことにしました。

というわけで、PAD自体のOCR機能はあまり使いものにならないという残念な結果にはなったものの、まず「いきなりPDF」のOCR機能で、新聞記事PDFファイルからあらかじめテキストを抽出しておき、その後PADで日付文字列を抜き出してファイル名に付加するという2段階の手順で自動化を進めていくことが決まりました。

次回は、この前提においてPADで作成した自動化フローについてご紹介したいと思います。

それでは今回はこの辺で。

宜しくお願い致します。

 

ニュースレターの最新号をメールでお知らせします。

こちらのデジタルビズ・トップページよりぜひ配信登録をお願い致します。


Comments


bottom of page