質問
請求書認識プロジェクトにおいてFlexiCapture for Invoices (以下、FCI)が適しているか、標準のFlexiCaptureが適しているかのチェックポイントを教えてください。
回答
FlexiCapture for Invoicesについては、こちらの記事もご参照ください。
まず、両者の違いについて簡単に振り返ります。
その上で、どちらが適しているかの判断基準ポイントは主に以下の3点となり、各観点について総合的に判断し、選択いたします。
※判断に際しては、実サンプルでの確認を推奨いたします。
ポイント | 詳細 |
全体の認識率 (画像品質) |
FCIの事前定義及び自動学習は、「文字/ワード」ベースのため(罫線等の情報は使用されない)、画像品質が低い=全体の認識率が悪い場合、フィールド抽出の品質が悪くなり、学習効果も低くなります。 ※標準のFlexiCaptureでは、画像品質が悪い場合でも罫線やその他オブジェクト情報を駆使する事により、精度を改善できる可能性があります。 |
レイアウトの複雑さ |
FCIは、現状シンプルなレイアウト(特にテーブル)にフォーカスしており、(Repeating Groupが必須となるような)複雑なテーブル構造は、サポートしておりません。 また、テーブルのページ跨り以外は、基本「1ドキュメント=1ページ」が想定されています。 ※上記、いずれも標準FlexiCaptureでは定義可能です。 |
ベンダーマッチング | ベンダーマッチングの精度が悪い場合、ベンダー毎の追加学習や(マニュアル)追加定義が無効となるため、精度が悪い場合は標準のFlexiCaptureを検討します。 |
では、ここからは上記の中でも特に「全体の認識率(画像品質)」「ベンダーマッチング」について補足いたします。
全体の認識率(画像品質)
全体の認識率(画像品質)については、FlexiLayout Studioで事前認識結果を確認する事でチェックが可能です。その際、フィールドを特定するための(周囲の)キーワードが正しく認識できているかどうかが主な判断基準となります。以下、品質が良い例と悪い例を紹介いたします。
【品質が良い例】
【品質が悪い例】
ベンダーマッチングについて
ベンダーマッチングの重要性について、以下の順(【FCIの認識ステップ】【ベンダーマッチングの仕組み】【ベンダーマッチングの精度】)で解説していきます。
【FCIの認識ステップ】
FCIにおける認識のステップは以下の通りとなります。
1. 製品標準の(定義済み)Main Flexilayoutにより、分類、ベンダーマッチング、各フィールドの認識が行われます。
2. (事前に作成・登録していた場合)追加のFlexilayout定義が呼び出され、各フィールドの認識処理が行われます。
3. (事前に作成・登録していた場合)ベンダー毎の学習結果や追加Flexilayoutが呼び出され、認識処理が行われます。
【認識結果のイメージ】
例えば、ある請求書が以下のように認識された際の、認識ステップを解説いたします。
ステップ1: Main FlexiLayoutによる認識
ステップ2: Additional FlexiLayoutによる認識
ステップ3: Vendor毎のFlexiLayout(自動学習&マニュアル定義)
以上から分かる通り、ベンダーマッチングが正しく行われない場合、ステップ3が実行されなくなり、期待した認識精度を達成する事が難しくなります。
【ベンダーマッチングの仕組み】
では、ベンダーマッチングはどのように行われるのでしょうか。
ベンダーマッチングは、事前に登録したデータセット(マスターデータ)とOCR認識結果を照合し、そのマッチ率によって特定されます。マッチングに使用されるキー項目は以下の通り(Helpより抜粋)となります。
名前 |
日本名 |
概要 |
補足 |
VAT ID |
ー |
税金の支払いに使用するベンダー毎一意の識別子 |
ベンダー検出に使用され、大きく影響する。 |
National VAT ID |
ー |
税金の支払いに使用するベンダー毎一意の国別識別子 |
|
IBAN |
ー |
ベンダーの国際銀行口座番号 |
|
Name |
会社名 |
ベンダーの名称 |
ベンダー検出に使用される |
ZIP |
郵便番号 |
ベンダー住所の郵便番号 |
|
Street |
住所 |
ベンダー住所の詳細住所(丁目、番地、号、等) |
|
City |
市区町村 |
ベンダー住所の市区町村名 |
※ベンダーマッチングに大きく影響する「VAT ID」「National VAT ID」「IBAN」は日本の請求書では使用されないため、それぞれ電話番号や銀行口座番号、等に置き換えて利用する事が推奨されます。
【ベンダーマッチングの精度】
最後に、ベンダーマッチングの品質が悪い例と、その対策案を紹介いたします。
画像例 |
認識結果 |
コメント |
画像品質が悪い=OCR精度が低いため、キー項目が正しく認識されておりません。 また、本サンプルはベンダーの住所情報がないため、キー項目数自体が少なくなってしまっています。 対策として、郵便局名や口座番号情報等を(代わりに)キー項目として追加する事が推奨されます。 |
||
印影の影響で、キー項目が正しく読み取れていません。 ※カラー画像の場合は、FlexiCaptureの画像処理で赤色除去を実施する事が推奨されます。 画像処理を実施しても取得が難しい場合、データセットの登録内容を編集(以下、一例)したり、Classifierやスクリプト(FlexiCapture標準の分類)を利用した代替案を検討します。 【例】 会社名を編集(株式会社をトル) 住所の登録を一部のみに 電話番号の代わりにFAX番号や口座番号を登録 |
コメント
0件のコメント
サインインしてコメントを残してください。