Get Adobe Flash player

postheadericon Распознавание текста в PCLinuxOS

Для распозавания русского текста в Linux существует программа OCR Cuneiform (аналог FineReader).

CuneiForm - cистема оптического распознавания ведущего российского разработчика программного обеспечения Cognitive Technologies. OCR CuneiForm обеспечивает быстрое и высококачественное преобразование бумажных документов и электронных графических файлов в редактируемый текст для последующей работы с ним.
OCR CuneiForm отличается от других программ этого класса высоким уровнем распознавания, особенно текстов низкого качества и наличием встроенных мастеров - помощников в работе; мощным встроенным текстовым редактором.
Система распознает русский, английский, смешанный русско-английский, украинский, немецкий, французский, испанский, португальский, итальянский, голландский, датский, шведский, финский, сербский, хорватский, польский, казахский, узбекский и другие языки.

Устанавливать будем из исходников, поскольку в репозитариях PCLinuxOS данного пакета нет.

Для начала необходимо установить следующие пакеты через Synaptic:

ImageMagick
libmagick2
libmagick-devel
libGraphicsMagick1
libGraphicsMagick++1
libGraphicsMagick++-devel
cmake
gcc-c++

Затем установка самой программы:

1. Скачать последнюю версию cuneiform отсюда: https://launchpad.net/cuneiform-linux
2. tar xvjf cuneiform-0.9.tar.bz2
3. cd cuneiform-0.9.0/
4. mkdir builddir
5. cd builddir
6. cmake -DCMAKE_BUILD_TYPE=debug ..
7. make
8. make install
9. ldconfig

После запуска может появиться ошибка библиотек программы. Решать так:

1. Создать файл с названием "a .conf", в котором в блокноте прописать путь к библиотекам: /usr/local/lib или /usr/local/lib64
2. Добавить этот файл в папку "/etc/ld.so.conf.d"
3. Запустить команду ldconfig

Запустить программу командой cuneiform (программа консольная) и пользоваться. Пример использования:

cuneiform -l rus -f html -o test.html mytext.png

где:
-l rus - язык файла с картинкой (список языков можно посмотреть так: cuneiform -l)
-f html - формат выходного файла (список форматов можно посмотреть так: cuneiform -f)
-o test.html - имя выходного файла
mytext.png - путь до файла с картинкой

Если нужно прикрутить к cuneiform графическую оболочку YAGF (не рекомендуем, т.к. много лишних пакетов нужно будет установить), то делаем так:

1. Установить следующий пакет через Synaptic: libqt4-devel.
2. Он подтянет еще кучу пакетов, сред которых будет нужный qmake.
3.Сборка аналогична приведенной выше. У меня потребовал ASPELL, доустановил libaspell-dev из репозитария.
Эту программку надо собирать прямо в основной папке, иначе вызовет ошибку при установке, или можно перед make install скопировать файлы *.qm в основной каталог с исходниками.

 

Примечание

* В OCR Cuneiform лучшие результаты распознавания получал, когда фотография книги была отсканирована с большим разрешением, сохранена в формат .jpg, а вывод результата распознавания сохранен в .rtf

Скачать PCLinuxOS

Поиск
Язык сайта