Vantageにおいて、抽出項目とその場所をトレーニング(学習)させることによってDocument Skillを作成する方法について、説明します。これにより、トレーニング(AI学習)ベースでスキャンデータからの必要なデータ抽出ソリューションを作成できます。
①左側のVantageメニューにて「Skill Catalog」をクリックします。
②右側のActionsメニューにて「Extract Data from Documents」(文書からのデータ抽出)をクリックします。
③下記のような画面に切り替わるので、Skill Name に適切な名前を付け、Descriptionに説明を記述し(任意)、「Create」ボタンをクリックします。
④下記のような画面に切り替わるので、真ん中の「Upload documents」ボタンをクリックし、トレーニング対象の文書をアップロードします。今回、トレーニング対象の文書サンプルとして3つファイルを用意しました。Zip ファイル(LetsTryToCreateDocSkill-Training.zip)をダウンロードし、展開し、アップロード下さい。
(もちろん、手持ちのサンプルで試されてもOKですが、以下の手順はZipファイルにて用意したサンプルを使ってお話しします。)
*日本語文書で試される場合には、文書をアップロードされる前に認識言語設定を変更する必要があります。Document Skill名の右側の歯車アイコンをクリックして、Languageを EnglishとJapanese (Modern)に設定下さい。
⑤アップロードした3つのPDFファイルのうち、Training-EFT Remittance Advice 53.pdfを開きます。これから、抽出したい項目とその場所(学習させたい項目とその場所)を指定してきます。まず、Account No. をクリックします。下記スクリーンショットのように右側にAccount No.用の抽出フィールドが作成されます。
⑥作成された抽出フィールドの左上の名前が「New Field」となっているので、ダブルクリックし、名前をつけます。今回は、以下のスクリーンショットのように「Account No.」とします。
⑦同様にDate Released(Account No.のすぐ下)として記載されている日付、Dateと文書の右下に記載されている合計金額、Totalのそれぞれの抽出フィールドを下記スクリーンショットのように作成します。
⑧次にテーブル(表)の抽出を行います。下記スクリーンショットの右上のAdd Tableアイコンをクリックします。
⑨表の中で抽出したい項目のタイトルをつけます。今回は、左からDate(日付)、Document ID(Document)、Amount(小計)とします。
⑩今作成している表の中の、数値を埋め込みたい空欄の箱をクリックした後、画像の中の該当する文字列をクリックします。四角枠で囲って文字抽出することも可能です。この方法で、適切なDate、Document ID、Amountを表に埋め込みます。
⑪1行分表を埋め終わったところで、その右にある□と▽が縦に組み合わさったアイコン("Create rows from this line")をクリックすることで、2行目以降のデータ抽出を自動で行います。
ここまでで、1枚目のサンプル、Training-EFT Remittance Advice 53.pdfに対してのデータ抽出場所の設定が終わりました。ここまでで、Account No. , 日付(Date), 合計(Total)と表(日付、Document ID, 小計)の抽出を行うこととし、その抽出場所をTraining-EFT Remittance Advice 53.pdfの中で指定しました。
⑫データ抽出場所を教え込むための作業を、残りの2つのサンプル、Training-EFT Remittance Advice 19.pdf, Training-EFTARIST (004).pdf に対して行います。左側のサンプルイメージの中で残りの2つのファイルのどちらかをダブルクリックすると、その画像に対しての入力(データ抽出場所を教え込む)画面に切り替わります。既に抽出項目はこれまでの作業で決めてますので、それぞれの抽出項目に対し、抽出すべきデータがどこにあるのかを画像の中で指定する(クリックする、もしくは四角で囲う)形で作業を進めます。右側にこれまでの作業で指定した抽出項目があります。まだデータ抽出場所を指定していないので、データは埋め込まれておらず、全て空の状態です。空のボックスをクリックした後、その左の画像画面へ行き、抽出すべきデータの場所をクリックもしくは四角で領域を囲い指定します。文字認識できている部分については、カーソルを持っていくと、緑色背景が入り、文字認識の結果を確認することもできます。緑色背景をクリックしていただくことで、黄色背景に変わり、右側の抽出項目に文字認識されたデータが埋め込まれます。このデータの埋め込みを、学習させたいサンプルファイル全てにおいて、データ抽出したい項目全てに対して行います。
テーブルの2行目以降の認識結果の埋め込みは、□と▽が縦に組み合わさったアイコン("Create rows from this line")をクリックすることで、自動的に行います。
なお、抽出項目のフォーマットを選択することもできます。抽出項目名の右側の歯車アイコンをクリックいただくことで、以下のスクリーンショットにあるようにフォーマット設定が可能です。文字 text、日付 date、金額 money、数字 numberが選択可能です。
⑬下記スクリーンショット一番右の「Actions」の一番下「Train」をクリックします。これにより、今まで入力してきた抽出項目とその抽出場所について機械学習(トレーニング)が行われます。
クリック後、学習(トレーニング)が始まると以下のような画面に切り替わります。
学習(トレーニング)が終了すると以下のような画面となり、学習結果を確認できます。
⑭上の画面の一番右の「Actions」メニューの一番下「Publish」をクリックします。作成したDocument Skillをテナント内へ公開し、使用可能にします。下のスクリーンショット画面に切り替わるので、必要に応じて、名前の変更、このDocument Skillに関しての説明を記述します(任意)。そして、青いPublishボタンをクリックします。
⑮ Skill Catalogの画面で、Skillを確認します。たった今PublishしたDocument Skillがリストに含まれていることが確認できます。
⑯ここからは、このスキルを試しに使って、確認してみます。上の画面一番右の「Actions」メニューの一番上「Try Skill」をクリックします。下の画面に遷移するので、対象となる(試す)文書を青いUpload documents ボタンをクリックして、ファイルを選択し、アップロードします。ここでは、TrySkill-EFT Remittance Advice11.pdfをアップロードします。
⑰結果として、以下の画面が得られ、抽出したい項目が抽出されていることが確認できます。
以上のように、抽出項目とその抽出場所をトレーニングすることで簡単にDocument Skillを作成することができます。
コメント
0件のコメント
記事コメントは受け付けていません。