質問
新規FlexiLayoutを作成する時に気をつけることを教えてください。
回答
FlexiLayout の初期設定によって、認識できる文字の精度を優先するか、実際の運用時の認識スピードを優先するか、また、日本語などに特有の縦書きの有無などを指定することで、より精度の高い定義を行うことができます。
以下では、特に気を付けるべき設定について、説明しています。
読み取りの言語の設定
読み取りの言語の設定は最も重要な設定の一つです。読み取る画像上にある言語を正しく設定しなければ、精度が大きく変化する場合があります。(日本語しか印字されていないのに、「英語」のみを指定すると、無理やり、印字されている文字に「英語」を割り当てようとします。)
頻繁に使用する言語の設定例:
日本語 (現代); 英語
もし、常用漢字、つまり私たちが日常使用する漢字のみを画像上で用いる場合は、言語は「日本語」よりも、より「日本語(現代)」がおすすめです。また、大体の印刷物には、多かれ少なかれ、英語のアルファベットが印字されることが多いですので、「英語」も選択します。
設定の表示:
有効な画像例:
現代的な日本語が主に印字されており、英語のアルファベットも印字されている("No."、 "TEL"、"FAX"なども含む)。
全く、英語が印字されておらず、全て日本語の場合、また、逆に全て英語で、日本語は一切ない場合は、一言語の指定にします。
「日本語(現代)」のみ | 「英語」のみ |
高度な事前認識プロパティ
[高度な事前認識プロパティ]ボタンを押すと次のような詳細な設定を行うことができます。
「徹底」は文字認識精度を最優先し、その代わり、時間が多少かかっても良い場合、
「高速」は文字認識の処理時間をより短くし、その代わりに文字の認識精度が下がっても構わない場合、
「バランス」はその間の設定でデフォルトの設定となります。
パフォーマンスのスピードを気にしない場合、は「徹底」を選ぶことが多い傾向にあります。
「高度」タブにおいて、次の設定は認識する画像によっては重要になります。
「縦書きテキストの抽出」
抽出しない |
縦書きが一切ないものとみなす。 |
中国語、日本語、韓国語の場合に抽出 |
中国語、日本語、韓国語の場合に抽出縦書きを可能な限り認識を試行させるかどうかの☑チェック |
すべての言語で抽出 | 英語や他の言語などでも縦書きを行うことがあるので、その認識を試行するかどうか。 |
CJK: セパレートふりがなモード:
CJK: Chinese, Japanese, Korean でフリガナを認識させるかどうかの☑チェック
フリガナを認識させたい場合にチェックします。ただし、フリガナは非常に小さい文字で書かれてい場合には認識できないこともあります。
複数ページ文書を許可
FlexiLayoutで定義する文書画像が複数ページある一定の法則もち、ヘッダ: 最初のページとフッタ: 最後のページに明らかに見分けられるキーワードがある場合、つまり、複数ページで成り立ち、ヘッダとフッタを定義可能である場合、「複数ページ文書を許可」を☑チェックします。
上記の設定は、メニューの「FlexiLayout」 > 「プロパティ」から後で設定することもできます。
コメント
0件のコメント
サインインしてコメントを残してください。