Community

распознавание табличных данных

Мне небходимо распознавать данные структурированные в изображении в виде таблицы. При этом форматирование(шрифт, размер текста, цевет и пр) не важны. Но важно сохранение табличной структуры, т.е. важно знать раположение данных по ячейкам. Подскажите пожалуйста какие настройки будет правильно указать для решения этой задачи? Пробовал ставить выходной формат xlsx, но к сожалению правильная таблица получается далеко не всегда.

1

Comments

11 comments

  • Avatar
    SDK_support

    Все зависит от самих таблиц и исходных документов. Например, если таблица присутствует на всей странице документа, то можно наложить табличный блок на всю страницу. Пример кода (на С#) может быть следующим:

          document.AddImageFile(imagePath, null, null);
          FREngine.PageProcessingParams pageProcessingParams = Engine.CreatePageProcessingParams();
          pageProcessingParams.PageAnalysisParams.TableAnalysisParams.SingleLinePerCell = true;
                for (int i = 0; i < document.Pages.Count; i++)
                {
                    FREngine.Region region = Engine.CreateRegion();
                    region.AddRect(0, 0, pageWidth, pageHeight);
                    FREngine.IBlock block = null;
                    block = Engine.CreateLayout().AddBlock(FREngine.BlockTypeEnum.BT_Table, region);
                    document.Pages.Item(i).Layout.Blocks.RemoveAll();
                    document.Pages.Item(i).Layout.AddBlock(FREngine.BlockTypeEnum.BT_Table, region);
                    document.Pages.Item(i).AnalyzeTable(0, pageProcessingParams);
                }
                string exportName = "D:\\Samples\\Results";
                document.Recognize(null, null);
                document.Synthesize(null);
                document.Export(exportName, FREngine.FileExportFormatEnum.FEF_XLS, null);
    

    Если таблица присутствует не на всей странице, пришлите нам пожалуйста, примеры обрабатываемых документов на cloudocrsdk@abbyy.com.

    С уважением, Анастасия

    1
  • Avatar
    AlexVN

    Спасибо за ответ. В своем вопросе я забыл указать что для распознавания использую Cloud OCR SDK. http://ocrsdk.com/documentation/apireference/ Соответственно вопрос как с помощью вышеуказанного АПИ решить описанную задачу.

    0
  • Avatar
    SDK_support

    Мы были бы Вам очень признательны, если бы Вы смогли прислать примеры обрабатываемых Вами документов на cloudocrsdk@abbyy.com. Мы попробуем изучить данный случай и по возможности дать Вам рекомендации.

    0
  • Avatar
    AlexVN

    Спасибо за оперативный ответ. Примеры документов отправил.

    0
  • Avatar
    SDK_support

    В следующей версии технологий во всех присланных Вами документах таблицы полностью находятся. Переход на новые технологии пока запланирован на осень этого года.

    Единственное, в документе "gp1.pdf" очень мешают поля по краям, поэтому, если есть такая возможность, попробуйте, немного модифицировать подобные картинки.

    С уважением, Анастасия.

    0
  • Avatar
    AlexVN

    Анастасия, спасибо за ответ. Правильно ли я понимаю что на текущий момент лучшим вариантом будет экспорт в формат Excel? так же интересует можно ли принять участие в тестировании новой версии? Что нужно для этого сделать?

    0
  • Avatar
    SDK_support

    Для получения полноценной таблицы в случае экспорта в Excel важно, чтобы таблица была успешно найдена. Однако, если в Вашем сценарии Вам важно сохранить разбиение по ячейкам, то да, лучшим вариантом будет экспорт в Excel для упрошения дальнейшего разбора распознанных данных.

    К сожалению, открытое тестирование новых версий у нас не предусмотрено.

    0
  • Avatar
    AlexVN

    Жаль что нельзя принять участие в тестировании. Подскажите, насколько можно расчитывать что публичный запуск новой версии произойдет осенью, а не будет перенесен на существенно более позний срок? Если на Cloud OCR SDK расчитывать не стоит то получается что единственным вариантом остается установка локальной версии и взаимодецйствие с ней. Насколько я понимаю там там функционал распознавания значительно шире.

    0
  • Avatar
    Anastasia Galimova

    Аналитик сообщил, что точный срок перехода Cloud OCR SDK на новую версию технологий зависит от результатов тестирования на обратную совместимость, 100% гарантии обновления осенью, к сожалению, нет.

    0
  • Avatar
    AlexVN

    Подскажите, появилась ли возможность проверить новую версию в которой улучшено рапознавание табличных данных?

    0
  • Avatar
    SDK_support

    Да, совершенно верно, в данном случае пока экспорт в Excel является лучшим вариантом. Касательно Вашего вопроса об участии в тестировании: публичного тестирования новой версии обычно не производится, поэтому возможности принять участие в нем, к сожалению, нет.

    0

Please sign in to leave a comment.