Вопрос
Я хочу получить доступ ко всему тексту на распознанных страницах, например, чтобы индексировать документы для будущего поиска. Как я могу это сделать?
Ответ
Для этого вы можете использовать метод ExtractTextRegions объекта Page. Например:
// C#
batch.Recognize(null, RecognitionModeEnum.RM_ReApplyDocumentDefinitions, null);
foreach (IDocument document in batch.Documents) {
document.Open();
foreach (IPage page in document.Pages) {
ITextRegions textRegions = page.ExtractTextRegions();
foreach (ITextRegion textRegion in textRegions) {
string plainText = textRegion.Text.PlainText;
System.Console.WriteLine(plainText);
}
}
document.Close();
}
Вы можете найти дополнительную информацию об ExtractTextRegions в FlexiCapture SDK User's Guide.
Комментарии
0 комментариев
Статья закрыта для комментариев.