Home

Реклама

Раньше | Дальше

Гепарденок

Поковырялся с сабжем. В общем, решение есть. Возможно — не единственное.

Сначала о грустном: всяческие gocr и ocrad русский текст не жалуют. Возможно, к ним можно найти какие-нибудь патчи, специальные файлы для языка... Я так глубоко не копал. Tesseract тоже не трогал, ибо его нужно «обучать», а я «не настоящий сталевар» и от программы хочу, чтобы она работала без долгих настроек и плясок с бубном.

В итоге остановился на CuneiForm, благо версия для Linux вполне стабильна. В качестве проверки в боевых условиях использовал «Фейнмановские лекции» с торрентов, перегнав предварительно PDF постранично в PNG. Текст распознался прекрасно. Формулы, естественно, идут лесом, но это ожидаемо. Методом тыка выяснилась интересная особенность: если перегонять в монохромный PNG (-sDEVICE=pngmono) — не распознается ни черта, при -sDEVICE=pnggray — отдельные буквы, причем цифры. Зато прекрасно распознается при -sDEVICE=png16m — это RGB, 24 бита на точку... Разрешение во всех случаях было одно и то же — -r300.

Ставил с оверлея sunrise, если кому интересно. Там же есть cuneiform-qt — GUI-морда, от которой лично я удовольствия не получил, поскольку распознавать по одному файлику мне совсем не интересно.

upd: Забыл добавить — требует установленный ImageMagick. Впрочем, мне трудно представить linux-систему без последнего...

Comments

( 7 комментариев — Высказаться )
[info]trueash wrote:
2 Июн, 2009 05:03 (UTC)
О! Спасибо за подсказку, ща буду пробовать. Иногда такой заразы остро не хватает
[info]iwsrus wrote:
2 Июн, 2009 05:11 (UTC)
Да не за что. Вот только документации там ноль...
[info]trueash wrote:
2 Июн, 2009 06:22 (UTC)
Ага.
[Error: Irreparable invalid markup ('<bitching_mode=on>') in entry. Owner must fix manually. Raw contents below.]

Ага. <bitching_mode=ON>Я вообще заметил, что если прогу разрабатывают "наши люди", или хотя бы активно в ней участвуют - добра не жди.<bitching_mode=OFF>.
Своё соло на бубне описываю у себя :)
[info]iwsrus wrote:
2 Июн, 2009 07:12 (UTC)
Наши люди тут ни при чем. Стандартное поведение всяческих тарболов — ставиться в /usr/local. Я в таких случаях префикс сразу правлю через configure, или как здесь — через cmake.

На самом деле — я таким макаром вообще ставлю только под юзером — с префиксом $HOME/usr :)
[info]trueash wrote:
2 Июн, 2009 09:28 (UTC)
Разница между "нашими" людьми и "не нашими" в том, что "наши" предполагают, что я знаю не меньше, чем они. А если это не так, то я или решаю свои траблы самостоятельно, или иду лесом. "Не наши", как мне показалось, хотя бы напишут вменяемый readme.
[info]iwsrus wrote:
2 Июн, 2009 09:32 (UTC)
А, ну это есть. Еще как. Я выше уже по этому же поводу высказался. Информации, мягко говоря, нема.
(Анонимно) wrote:
8 Дек, 2009 05:51 (UTC)
РАСПОЗНАВАНИЕ РУССКИХ ТЕКСТОВ
Посмотрите на этом блоге про OCR: http://insdom.blogspot.com/2009/08/gui-yagf-cuneiform.html Сейчас существуют вполне приличные способы справиться с проблемой.
( 7 комментариев — Высказаться )

Profile

Пермь-2008
[info]iwsrus
Иван Шихалев
FreePascal.ru

Что? Где? Когда?

Tags

Latest Month

Декабрь 2009
Вс Пн Вт Ср Чт Пт Сб
  12345
6789101112
13141516171819
20212223242526
2728293031  

Counters

Рейтинг блогов



Site Meter
Разработано LiveJournal.com
Designed by Lilia Ahner