Subject: офф: подскажите удобную программу для распознавания текста gen. Подскажите, пожалуйста,какую бы программу распознавания читаемых pdf-файлов попробовать помимо finereader. Мне не нравится результат на выходе :( Если остальные такие же, может быть, поделитесь своим алгоритмом очистки текста после распознавания, у меня все в разрывах разделов, страниц, знаках табуляции и т.д., поля странные, в общем каша. Заранее спасибо. |
Adobe Reader. |
только, наверное, не просто бесплатный Reader, а полный Adobe Acrobat |
Я пробовала пробную версию, показалось, что файнридер даже лучше. |
Сабо сомой. |
Petrelnik, в пробной версии, как правило, предлагают программу с ограниченными возможностями. |
а чем не FR 11.0 нра? на работе FR 9.0 Corporate Edition - и полностью устраивает |
Файнридер выпускается под еще одним названием (забыл :), но в целом тоже самое. Ничего лучше ФР я пока не видел. Но ведь чтобы результат был хороший, надо еще и ручками поработать, настроить все сегменты |
У меня в файнридере каша значительно уменьшилась при изменении режима сохранения оформления |
У меня finereader professional 11. лицензионный ) подскажите, пожалуйста, как ручками-то все это исправлять (желательно как-то чтобы все и сразу, а не по каждой странице и каждому знаку, потому что если документ 100 листов, как-то это невесело выходит) и как изменить режим сохранения оформления? |
первым делом заменяете все разрывы разделов и разрывы колонок на знак абзаца. затем выделяете весь текст (CTRL+A), тыкаете в свойства шрифта. Ставите Timesnewroman/12/Обычный. На второй вкалдке "Интервал" здесь же ставите значения: 100%/Обычный/Нет. В свойствах абзаца выставляете нули и одинарный междустрочный интервал. Получается текст а-ля txt. Удаляете все "коробочки", то есть текстовые надписи. В таблицах убираете точную пригонку высоты строки (Свойства таблицы-Строка-высота 0) Если таблицы вставляются в рамку при распознавании, то в самом ФР надо поставить режим "Форматированный текст" Короче, долгая история :) И без упорства и терпения ее не одолеть. |
*то есть не высота 0, а просто убрать галочку с параметра "высота", где стоит значение 0 |
>>как изменить режим сохранения оформления? В ФР11 Сервис->Опции->Сохранить->DOCX/ODT/RTF->Оформление В Справке написано, какой вариант чего значит. |
AsIs как всегда спасибо за полезные советы! У меня еще вопрос, немного по другой теме. Пытаюсь в WinAlign соединить два уже переведенных документа, получается плохо, потому что во всех сегментах, состоящих из таблиц, пары "оригинал-перевод" вообще не соответствуют друг другу, в итоге все остальные сегменты тоже сбивается и куда-то уезжают. Текст большой, и примерно треть этих таблиц. И ведь я хочу это в базу загнать, потому что прислали новую версию этого документа :( Но если продолжатся мучения с WinAlign, чувствую не выдержу и буду в ворде делать :( |
glomurka Мерси :) |
если вы хотите использовать WinAlign, то лучше сначала построить одноколоночную таблицу из исходника и перевода (два отдельных файла). В каждой ячейке по предложению. Для начала можно преобразовать текст в таблицу в исходном файле. Потом преобразовать текст в таблицу в переводе и, ориентируясь по оригиналу, разнести перевод по соответствующим ячейкам. Естественно, количество ячеек должно совпадать и строго соответствовать (оригинал-перевод). Потом уже эти файлы с таблицами элайнить. |
Спасибо!!! попробую. |
да, еще до кучи. чтобы не ошибиться в количестве ячеек, я еще после преобразования исходного текста в таблицу добавляю колонку слева и в ней делаю автоматическую нумерацию. В этом случае вы будете точно знать, сколько у вас ячеек в оригинале. То же самое нужно сделать в таблице с переводом. Так вы сможете контролировать количество ячеек и спопоставлять оригинал с переводом (по номеру ячейки). Чтобы вставить номер в левую колонку, надо поставить туда (в первую левую ячейку первой строки) курсор и (в ворде 2007) выбрать Вставка-Экспресс-блоки-Поле-AutoNum-1,2,3,... Тогда в первой строке левой колнки появится автоматический номер "1." Затем нужно выделить эту ячейку, нажать Ctrl+C, выделить остальные ячейки этой колонки и нажать Ctrl+V. Тогда у вас появится автоматическая нумерация колонок. Потом, когда вы уже все соотнесете и сохраните подоготовленные файлы, эту колонку можно будет разом грохнуть, чтобы она не занимала место в WinAlign. |
Abby PDF Transformer распознает гораздо качественнее файнридера, причем можно самостоятельно указывать на каждой странице, как следует распознать тот или иной кусок текста (как текст, как таблицу, как картинку, что вообще выбросить). ессно в таком режиме распознавание занимает больше времени, но зато конечный результат очень хорош и практически не требует дополнительной правки. |
|
link 10.07.2013 22:10 |
кто-нибудь поможет перевести - jump arm complete? связано с сельхозтехникой |
|
link 11.07.2013 6:28 |
RE >>причем можно самостоятельно указывать на каждой странице, как следует распознать тот или иной кусок текста (как текст, как таблицу, как картинку, что вообще выбросить). >> В ФР это тоже все есть. |
Abby PDF Transformer - это тот же FineReader, только обрезанный. Распознает он точно так же (ибо одними руками делались оба продукта), просто настроек меньше. |
|
link 11.07.2013 6:41 |
OFF: смысл jump arm complete - прыгающий рычаг в сборе а редактируйте сами На странице http://www.multitran.ru/c/m/a=2&l1=1&l2=2 найдите строку "Добавить тему" для задавания вопросов |
Во-во, другая ипостась ФР называется трансформер. Ясен пень, движок там тот же самый. Интерфейс немного другой. |
You need to be logged in to post in the forum |