皆さん、こんにちは。
前回に引き続き、Robotics Process Automation(RPA)を活用した業務の効率化について紹介していきたいと思います。
前回は、MicrosoftのPower Automate for Desktop(PAD)を使って、日経新聞の記事PDF内に記載された掲載日の日付を読み取ってファイル名に付加する作業を自動化するという目的のため、まずOCR(Optical Character Recognition)機能をいろいろ試してみたことを紹介しました。
◇前回の記事「PADのOCR機能を検証してみた」(2023/10/10)
その結果、PADで標準サポートされているOCR機能では残念ながら満足な読み取りができないことが判明したため、OCR読み取りについては、あらかじめソースネクストの「いきなりPDF Ver10 COMPLETE」というソフトウェアを使ってテキスト変換しておいた上で、そこから掲載日の日付を抽出して、ファイル名を変換する部分をPADで自動化することに方針転換しました。
テキスト変換
上の図のように、「PDFフォルダ」と「TXTフォルダ」とを作成し、記事PDFファイルを「PDFフォルダ」のほうに格納します。
「まとめてPDF」でテキスト変換を選択し、出力先を「TXTフォルダ」に指定しておくと、複数ファイルをまとめて自動的にテキスト変換してくれます。
10個の記事PDFをまとめて変換すると、約49秒で変換できました。
これにより、拡張子より前の部分は同じで、拡張子が「.txt」のファイルが10個、「TXTフォルダ」内にできあがりました。
次に、PADによる自動化フローです。
PADの自動化フロー
上の図が、PADによる自動化フローのおおまかな流れです。
⑤⑥では、テキストの中から例えば「掲載日2023年10月16日」という部分を探し出し、その中から「2023年10月16日」という部分だけを抽出して、それを「20231016」のような日付形式のテキストに変換しています。
そして一番のポイントになるのが、⑦ファイル名の変換です。
このとき処理しているテキストファイルが例えば「AAA.txt」というファイルであれば、名前を変換する対象のPDFファイルは「AAA.pdf」というふうに、拡張子より前の部分が同じであることがミソです。
「CurrentItem.NameWithoutExtension」という変数がファイル名の拡張子より前の部分を表しますので、それに拡張子「.pdf」を付けたファイルに対して、名前の前に日付テキストを付け加えて保存しなさい、というアクションを、⑦では行っているわけです。
具体的には、次の図のように設定します。
「FormattedDateTime」という変数に、「20231016」のように変換した日付テキストが格納されています。
エラー処理
ピンク色で囲った④部分は「ブロックエラー処理」といって、この囲った枠内のどこでエラーが発生しても、決まった処理を行うというものです。
例えば10個のファイルのうち3個目で、テキストから日付がうまく読み取れなかった場合、このエラー処理を入れておかないと、そこで処理が止まってしまい、残りの7つのファイルは変換できないままになってしまいます。
このエラー処理で、エラーが発生したらそのファイルについての変換をスキップして、ピンクの「End」に飛ぶよう設定しておけば、3個目のファイルでエラーが発生しても、それをスキップして4個目以降も処理を続けてくれ、終了後に変換できなかった3個目だけを修正すれば済みます。
こうしたことも、PADでは簡単に設定できるようになっていますので、手軽に自動化フローを作成することが可能となります。
この自動化フローにより、10個の記事PDFファイルの名前に日付を付ける処理が、約48秒でできました。
「いきなりPDF」によるテキスト変換と、PADによるファイル名変換、併せても2分以内で10個のファイルの処理ができたというわけです。
こうした単純作業に時間や手間暇を取られることなく、別の仕事の合間を使って、しかも間違うことなく正確に処理してくれるところが、RPAのメリットだと思います。
ぜひ皆さんもRPAを活用して、頭脳や労力をもっと生産的な仕事のために使っていただきたいと思います。
次回はRPA活用上の注意点について紹介しておきたいと思います。
それでは今回はこの辺で。
宜しくお願い致します。
ニュースレターの最新号をメールでお知らせします。
こちらのデジタルビズ・トップページよりぜひ配信登録をお願い致します。
Comments