Проблемка с PDF

link 30.11.2013 14:50

Subject: Проблемка с PDF gen.

Есть PDF. Текст в основном редактируемый (работаю с ним в Инфиксе), но есть вставка с картинкой. На картинке тоже текст, но соотв-но уже не редактируемый. Вытаскивать в Файнридер гиморно: файл большой, таких объектов несколько. Тем более, что ФР обратно в ПДФ пересохраняет некорректно, а в Ворд - будет еще доп. гимор с доформатированием.

В Акробате распознать выделенное изображение встроенным OCR - если и есть, то не могу найти где. То же самое в Инфиксе. Хотелось бы найти (если такая есть) опцию "распознать текст в выделенном объекте", не прибегая к Файнридеру.

В крайнем случае повставляю текст-боксы, но оно как бы 21 век на дворе... Вдруг кто-то сталкивался, заранее признателен за совет.

Aiduza ✉

link 30.11.2013 14:56

Если всего несколько картинок, то я бы воспользовался Файнридером - скопировал картинку и вставил в Paint (или другую программу для работы с графикой), сохранил как jpg, открыл и распознал в ФР. Еще можно сделать снимок экрана и вставить в Paint и так далее.

ttimakina ✉

link 30.11.2013 15:00

PDF ещё неплохо открывается в NeoOffice. Не попробовав, не могу знать справится ли он с такой ситуацией.

Enote ✉

link 30.11.2013 15:05

в 9-ом Акробате можно распознать текущую страницу (Документ - Опт. распознавание -... )
А зачем для FR в jpg конвертировать? Он и с ПДФ работать умеет

Val61 ✉

link 30.11.2013 15:26

в 9-ом Акробате можно распознать текущую страницу

В Акробате, если на странице уже есть распознанный текст, то текст на графическом объекте он распознавать не будет. Я думал, может какой-то плагинчик к Акробату имеется, чтобы распознавать именно отдельные области на странице.

А так... Вставить текст-бокс я и без файнридера смогу, текста немного, просто надпись к картинке оказалась встроена в саму картинку.

Просто хочется что-то, on the fly, без перепрыгивания из программы в программу.

ttimakina ✉

link 30.11.2013 15:45

Val61, боюсь, on the fly всё-таки не выйдет (поэкспериментировала с разными программами). Погружённый объект - он и в pdf матрёшка. Ловкость акробата и других "читателей " pdf не в распознавании, а в том, что они знают как и из чего был собран файл pdf. У них есть спецотвёртка. Пилы и молотка нет :(
Сорри, если что...

Val61 ✉

link 30.11.2013 15:56

Это все понятно. Придется картинки вытаскивать, переводить отдельно, потом вставлять взад. Гимор, да. Вообще странно, что отдельную страницу распознать осиаром можно, а отдельную область на странице - нельзя. Недопилено. И в Инфиксе тоже, уж на что мощная прога, а в этом месте и она споткнулась. Наверняка где-то в дебрях интернетов плагинчик водится... Ладно. Некогда искать. Потом поищем.

ttimakina ✉

link 30.11.2013 16:08

Val61, потому что с точки зрения софта это совсем разные задачи. Расшифровка известного программного кода известными средствами и распознавание образов.

AsIs ✉

link 30.11.2013 18:58

А в Document => OCR corrections - это не то?

AsIs ✉

link 30.11.2013 19:07

Нет, не то... Сорри

AsIs ✉

link 30.11.2013 19:34

Я обычно нашлепки делаю. Как обычная надпись, только с фоном. Если же текста такого (нередактируемого Инфиксом) много, то ФР использую...
Действительно косячокс с инфикса. Могли бы что-то простецкое прикрутить.

AsIs ✉

link 30.11.2013 19:47

Вдогонку: Val61, у АББЫЫ Файнридера при установке есть возможность не отказаться от установки фичи Screenshot Reader. Запускаете эту фичу, на экране появляется крестик. Обводите этим крестиком любой текст на экране - и прога копирует обведенный текст в буфер обмена. Потом можно просто нажать Ctrl+V в любом текстовом редакторе (Ворд, Инфикс и др.) - текст вставится в буквописном виде.

Val61 ✉

link 30.11.2013 21:11

За скриншот ридер спасибо :up:
Слышал о нем, но как-то не доводилось раньше пользоваться.
В принципе, в отдельных случаях как паллиатива сойдет, где-то иногда минутку-другую сэкономит. Мне для моих данных конкретных целей, наверное, сгодится.

DpoH ✉

link 2.12.2013 15:58

не пойму, о чём вообще спор?
1) современный фотошоп прекрасно открывает файлы ПДФ, редактирует их в графическом виде и обратно сохраняет в пдф-же

2) современный акробат может как сохранять текстовую часть, так и распознать графическую (есть отменить соотв. опцию при сохранении)

зачем копья так ломать?

trtrtr ✉

link 2.12.2013 16:26

DpoH, думаю у Val ключевое "файл большой".

Val61 ✉

link 2.12.2013 17:34

современный акробат может как сохранять текстовую часть, так и распознать графическую

Поподробнее, пожалуйста. Если у меня на странице ПДФ и текст, и изображение, я жму на OCR и он говорит, что распознавать не будет, т.к. на странице уже есть распознанный текст. В Акробате где-то есть опция OCR только выбранной (выделенной) области на странице?

overdoze ✉

link 2.12.2013 17:37

бросайте вы эти ПДФы!!! там в соседней ветке у Эссбукетова спрашивают как картинки в форум вставлять! нельзя этого допустить ящетаю ...

DpoH ✉

link 3.12.2013 9:11

спешиал фор Val61:
в адоб акробат нажимаете: Файл - Сохранить как... - выбираете тип документа Документ ворд. Нажимаем кнопочку Настройки... и ставим птичечку Выполнить оптическое распознавание, если потребуется. Всё, вуа ля.

Val61 ✉

link 3.12.2013 9:17

DpoH, при этом на выходе (в моем конкретном случае) получается такая фигня, с которой невозможно работать. Все зависит от внутренней структуры исходного файла. Такой прием канает далеко не всегда.

Val61 ✉

link 3.12.2013 9:23

Упс, жаль, нельзя здесь свои опубликованные посты править. Вдогонку. У меня в данном файле есть картинки с текстом, которые нужно оставить именно как картинки, т.е. чтобы OCR не пытался распознавать текст в таких объектах. Но есть и картинки, текст внутри которых нужно превратить в текст.

Пока не нашел ничего лучше, чем Файнридером заделать текстбоксы где нужно и, не трогая остального, полученное сохранить из ФР обратно в ПДФ. К сожалению, ФР заметно ухудшает качество полученного из него pdf, что особенно заметно в таблицах с мелким и разноцветным шрифтом.

Val61 ✉

link 3.12.2013 9:29

Blin, да что же это такое.

Файл - Сохранить как... - выбираете тип документа Документ ворд. Нажимаем кнопочку Настройки... и ставим птичечку Выполнить оптическое распознавание, если потребуется. Всё, вуа ля.

Да вот нифига. Текст в картинках при этом остается нераспознанным. Я об том и толкую: если в пдф есть нормальный текст, то встроенный OCR распознавать текст на картинках не будет. В Инфиксе тоже.

Я думал, что есть какой-нибудь плагин к Акробату, который позволяет выборочно распознавать текст на картинках непосредственно в Акробате, без применения Файнридера, Фотошопа и вообще любого стороннего ПО. Но нет. Фокус не прокатит. Не нашел.

К своему большому огорчению, файл для посмотреть о чем речь, выложить не могу. М.б. найду что-то похожее, тогда выложу.

DpoH ✉

link 3.12.2013 9:33

Val61, честно сказать, не проверял работу данной функции, ибо пользуюсь файнридером. Он всё таки надёжнее выглядит и привычнее. Но, теоретически, эта функция в акробате как раз и подразумевалась для "выборочно распознать текст в картинках."

Val61 ✉

link 3.12.2013 9:44

Эта функция работает, когда весь ПДФ представляет собой одно сплошное отсканированное изображение.

Но когда файл выглядит вот так:

http://yadi.sk/d/Vd0P7ctXDi6Sp

и нужно распознать текст на встроенной картинке, не трогая в файле больше ничего, то Акробат здесь не работает. Если только, повторюсь, к нему нет какого-нибудь хитрого плагина. Но из истории всей этой ветки я понимаю, что если такой плагин и существует, то широким переводческим массам он неизвестен.

ABBY Screenshot Reader частично помогает, можно вставить текстбокс рядом с отсканированным текстом. Но если исходный текст нужно удалить, то вся операция превращается в гимор, который уже лучше делать в том же ФР.

DpoH ✉

link 3.12.2013 10:16

Val61, простите за нескромный вопрос, что вам мешает запустить Файнридер и выполнить все необходимые действия?

Val61 ✉

link 3.12.2013 10:30

DpoH: 150 страниц. Процентов на 80 текст "настоящий" и с ним проблем нет. Естественное желание - загнать весь пакет в Инфикс, извлечь текст в кошку и переводить. Но! Сделать вот так просто не получается, потому что по тексту раскидано около 20-30 картинок со встроенными в них надписями. Приходится именно что запускать Файнридер и терять время. Именно эту часть процесса хотелось как-то автоматизировать. Потому что суммарная потеря на приведение проекта в порядок в Файнридере - около трех часов.

intertrans ✉

link 3.12.2013 10:42

Программа PDF-XChangeViewer позволяет наложить текстовые заплатки (по аналогии с text boxes в Ворде) непосредственно в PDF. Программа очень продвинутая, но нигде не нашел в ней функцию выравнивания по всей ширине страницы.

Val61 ✉

link 3.12.2013 11:16

intertrans, что PDF-XChangeViewer может такого, чего не может сам Акробат?

DpoH ✉

link 3.12.2013 11:18

да ёжкин кот! да хоть 250 страниц, это меняет суть вопроса? Загоняйте весь документ в файнридер, потом кнопочкой DEL удалите из проекта страницы с текстом, оставив страницы с картинками. Далее, распознавайте их и редактируйте в своё удовольствие.

Val61 ✉

link 3.12.2013 11:27

А как потом сшивать все обратно?

Val61 ✉

link 3.12.2013 11:34

И еще. На одной странице и текст, и картинки со встроенным в них текстом. На некоторых из этих картинок текст нужно распознать, а на некоторых - не нужно. Куда удалять такую страницу?

Конечно я могу все это проделать в Файнридере. Но смысл вопроса был в другом: можно ли обойтись без Файнридера, одними лишь средствами Акробата или специально дописанными к Акробату приблудами. Потому что обращение к Файнридеру требует слишком больших ( по моему мнению) затрат времени на эту подготовку документа к переводу.

alk ✉ moderator

link 3.12.2013 11:36

PDF-XchangeViewer позволяет именно заплатки в отдельном слое рисовать.
Функция OCR у него есть, но работает она не так хорошо, как в FineReader'е. Годится для простейших операций вроде копи-пейста из pdf-скана в Word пары абзацев.
В FineReader'е есть возможность заранее устанавливать блоки и определять их тип. То есть там, где рисунок с текстом, который надо распознать, следует вручную установить блок, переопределив его тип из "рисунок" в "текст". Тогда FineReader будет пытаться внутренности распознавать.

Val61 ✉

link 3.12.2013 11:49

alk, именно это я и делаю. Ставлю в Файнридере на картинках текстбоксы и сохраняю обратно в ПДФ. К сожалению, при таком пересохранении, очень мелкий, да к тому же еще и разноцветный, текст собственно самого ПДФ (который и был текстом с самого начала и который трогать не нужно) искажается Файнридером так, что потом некорректно распознается Инфиксом. Возможно, надо еще раз как-то пересохранить в Акробате с какими-то опциями, я еще с этим бубном потом потанцую.

Сохранять же в Ворд я не хочу потому что: сохранение идет некорректно, плывут размеры, межстрочные интервалы и т.д. И, плюс, файл разбухает до каких-то бешеных мегабайтов. Инфикс же гарантирует 100% сохранение исходного формата (ну там по мелочи подправить, ерунда).

Жаль, на словах не объяснишь, а страничку выложить не могу.

Ну и, самое главное: без Файнридера никак, насколько я понимаю. Именно это и жаль.

You need to be logged in to post in the forum

Get short URL