認識 - 文字の読み取りの精度を上げる - 正規表現

質問

正規表現を使用方法を教えてください。

回答

読み取る文字列が下図のように、明らかにパターンがある場合読み取り時に 正規表現 を割り当てることで、読み取りの精度を上げられる可能性がございます。

帳票サンプル

mceclip0.png

上図ですと、

ID

"ABC"{数字3文字}"ID"{数字4文字}"A"{数字2文字}

製品名

"Machine"{数字3文字}"Product Name ABC"{数字3文字}

という法則性が明らかにあります。

このような場合、正規表現 という機能が有効なことがございます。

手順

「文書定義 」→ フィールドの「プロパティ」→「データ」タブから、「データタイプ」の[編集]ボタンを選択し、「言語」を1つに絞り込み、「内容の設定」を「特殊」にします。

mceclip1.png

[新規]ボタンを選択します。

mceclip2.png

「新規データタイプの基準」の「正規表現」と「アルファベット」を有効にして[次へ]進みます。

mceclip5.png​​

[次へ]進みます。

mceclip6.png

正規表現 を入力します。右側のボタンで FlexiCapture 独自の 正規表現 の入力補助ができます。

FlexiCapture の 正規表現につきましては、こちらをご覧ください。

正規表現で使用されるアルファベット

正規表現を入力しましたら、[次へ]進みます。

mceclip7.png

[OK]で進みます*。

*正規表現 で指定された文字でOCR/読み取り文字に割り当てる文字を限定するが良いか、という確認です。

mceclip8.png

正規表現 で設定した文字のみを使用するように使用する文字「アルファベット」が自動的に設定されますので、そのまま*、[次へ]進みます。

*[カスタマイズ]ボタン、または、直に入力で 正規表現 で使った文字以外 を読取文字に割り当てたい場合、 使用する文字を編集できますが、そのような運用は中々ないかと存じます。

mceclip9.png

この正規表現を設定したデータタイプに分かり易い名前をつけて、[完了]します。

mceclip5.png

作成したオリジナルのテータタイプが表示され、選択されますので、[OK]を選択します。

mceclip6.png

プロパティでも「データタイプ」が設定されていることが確認できます、そのまま[適用]します。

mceclip10.png

読み取りを試し、正規表現による精度向上を確認します。

追加情報

他にご質問がございましたら、リクエストを送信してください

コメント

0件のコメント

サインインしてコメントを残してください。