準定型(半構造化)文書の文書定義方法

質問

準定型(半構造化)文書の文書定義方法を教えてください。

回答

FlexiCaptureでは、準定型(半構造化)文書の文書定義を以下のようなステップで実施します。

【準定型文書の文書定義方法】

  1. 仕分け定義
  2. レイアウト定義:Assembly(ページ構成)、読取項目(フィールド)の位置取得設定
  3. 各フィールドの読取方法、補正処理、ルール設定
  4. 入出力設定

※本コラムでは、中心となるステップ2, 3について紹介します。ステップ1は必要に応じて行いますが、その方法については別途説明します。

FlexiCaptureでは、上記ステップを実現するため、2つのツールを使用します。

ステップ1ではFlexiLayout Studioというツールを使用し、ステップ2, 3, 4ではプロジェクト設定ステーション(Distributed版、Standalone版では管理者ステーション)を使用します。

※Standalone版とDistributed版の違いについてはHelpやこちらの記事(StandaloneDistributed)をご参照ください。

では、それぞれのステップ(ステップ2, 3)について見ていきたいと思います。

ステップ2: FlexiLayout Studioを使ったレイアウト定義

FlexiLayout Studioは、その名の通り準定型文書のレイアウト定義を行うStudio(ツール)で、外観は以下の通りです。

 mceclip0.png

  • 赤枠 [左上側]        :[バッチ] 枠、Importした画像のリストを表示
  • 橙枠 [左真中]        :[FlexiLayout] 枠、設計・配置した要素(エレメント)の構造を表示
  • 黄枠 [左下側]        :[プロパティ] 枠、選択した要素(エレメント)のプロパティを表示
  • 緑枠 [右上側]        :画像プレビュー、文字/線等認識状態、要素配置状況確認
  • 青枠 [右下側]        :[仮設ツリー] 枠、要素と画像のマッチング状況を表示

ここではFlexiLayout Studioを用いたレイアウト定義方法詳細については割愛しますが、基本的な設定の流れは「FlexiLayout Studioことはじめ」をご参照ください。

レイアウト定義完了後、FlexiLayout定義ファイル(.afl形式)をエクスポートします。

ステップ3: プロジェクト設定ステーション(管理者ステーション)による文書定義

1. 新規プロジェクトを作成(ファイル > 新規プロジェクト)

プロジェクト設定ステーション(管理者ステーション)を開き、新規FlexiCaptureプロジェクトを作成します。

 mceclip0.png

2. 文書定義を新規登録(プロジェクト > 文書定義)

文書定義一覧画面で「新規」ボタンをクリックし、「半構造化または非構造化のドキュメント」を選択、次へをクリックします。

 mceclip1.png

サンプル画像を指定後、ステップ2で作成したFlexiLayout設定ファイル(afl形式)を読み込むと、文書定義エディタが開きます。

 mceclip2.png

3. 文書定義設定(文書定義エディタ)

文書定義エディタは、文書定義全般の設定をするツールで、外観は以下のようになっています。

 mceclip3.png

  • 赤枠 [左上側]        :読み込んだテンプレート画像プレビュー、認識結果を表示
  • 緑枠 [右側]           :読み取り項目一覧(ツリー)
  • 黄枠 [左下側]        :データフォーム(検証ステーションのデザイン表示)設定画面

文書定義エディタにおける文書定義設定の基本的なステップは以下の通りとなります。

  1. FlexiLayout設定ファイル(afl形式)の読み込み(上記2. )
  2. 各読み取り項目の認識設定
  3. 読み取り項目、文書構造に関するルール設定(必要に応じて)
  4. データフォーム設定(必要に応じて)
  5. イベント設定(必要に応じて)
  6. Export設定

※2. ~ 6. の詳細については本コラム末尾の関連記事をご参照ください。

4. 文書定義の公開

文書定義エディタで設定終了後、文書定義一覧画面にて「公開(Publish)」を実施することにより、プロジェクトに文書定義が登録され、利用可能となります。

 mceclip4.png

以上、本コラムでは準定型(半構造化)文書の文書定義の流れについて説明いたしました。各ステップの詳細については、ナレッジベースの関連記事をご参照ください。

追加情報

  • 読み取り項目の認識設定について

文字の読み取りの精度を上げる - 読み取りに使用する文字制限

文字の読み取りの精度を上げる - 正規表現

FlexiCapture で FlexiLayout から エクスポート した定義を元に文字をできるだけ正確に読み取りたい時の基本的な考え方を教えてほしい

処理にかかった時間を表示、出力したい

認識 - 文字の読み取りの精度を上げる - 読み取りに使用する文字制限

認識 - 文字の読み取りの精度を上げる - 正規表現

マーキングタイプ: 枠線、線を無視してOCR/読みたい

オートコレクトオプション - 不要な文字の削除・置換

文書定義 - フィールド - スペースを検知して挿入したい - FlexiCapture

文書定義のサービスフィールドが編集できない

1つの文書、同一帳票で、ページによりレイアウトが微妙に異なる文書に対して、複数の FlexiLayout を設定し、Assembly: アセンブリ (と場合によっては各ページ共通の値) により1つの文書として扱いたい。

アセンブリ エラー: "Order pages as follows..."

検証を行う時、ドロップダウンリストから必要な値を選択するように設定したい

繰り返しグループ: Repeating Group を 表: Table として表示させたい

画像上にある表を読み取った Table: 表, Repeating Group: 繰り返しグループ の行数、列数、内容を変更した表を別途検証時に表示したい。また、エクスポートしたい。

  • ルール設定

データベースへの接続 - Access編

Script: スクリプト - 文書定義 の 「1 フィールド」 に対してのスクリプト(プログラミング) の基本知識

Script: スクリプトはどこから記述するのか。どのように使い分けるのか。

Table: 表 または Repeating Group: 繰り返し グループ の 要素(行、列)にスクリプトでアクセスしたい。

Script:フィールドの改行削除方法

Script:画像フィールド の値を操作したい

  • データフォーム設定

検証時の検証完了(Enter)入力時のフォーカスの当たる順番を変えたい

  • イベント設定

スクリプト - イベントハンドラ - イベントの使い分け

  • エクスポート設定

エクスポート: 必要な設定、アクセス権 - Distributed版

エクスポート: 既存の設定で可能な名前以外の名前をエクスポートするファイルの名前につけたい。

エクスポート: Export 結果ファイルで 表 の 列名ヘッダ を日本語など、希望した文字で出力したい

Export: エクスポート - エクスポートするファイル名に文書定義のフィールド名を使用したい (任意の名前を付けたい )02

  • 文書仕分け

AI自動学習による文書仕分け(分類)方法 - ABBYY FlexiCapture 12

他にご質問がございましたら、リクエストを送信してください

コメント

0件のコメント

サインインしてコメントを残してください。