Subject: Проблемка с PDF gen. Есть PDF. Текст в основном редактируемый (работаю с ним в Инфиксе), но есть вставка с картинкой. На картинке тоже текст, но соотв-но уже не редактируемый. Вытаскивать в Файнридер гиморно: файл большой, таких объектов несколько. Тем более, что ФР обратно в ПДФ пересохраняет некорректно, а в Ворд - будет еще доп. гимор с доформатированием.В Акробате распознать выделенное изображение встроенным OCR - если и есть, то не могу найти где. То же самое в Инфиксе. Хотелось бы найти (если такая есть) опцию "распознать текст в выделенном объекте", не прибегая к Файнридеру. В крайнем случае повставляю текст-боксы, но оно как бы 21 век на дворе... Вдруг кто-то сталкивался, заранее признателен за совет. |
Если всего несколько картинок, то я бы воспользовался Файнридером - скопировал картинку и вставил в Paint (или другую программу для работы с графикой), сохранил как jpg, открыл и распознал в ФР. Еще можно сделать снимок экрана и вставить в Paint и так далее. |
PDF ещё неплохо открывается в NeoOffice. Не попробовав, не могу знать справится ли он с такой ситуацией. |
в 9-ом Акробате можно распознать текущую страницу (Документ - Опт. распознавание -... ) А зачем для FR в jpg конвертировать? Он и с ПДФ работать умеет |
в 9-ом Акробате можно распознать текущую страницу В Акробате, если на странице уже есть распознанный текст, то текст на графическом объекте он распознавать не будет. Я думал, может какой-то плагинчик к Акробату имеется, чтобы распознавать именно отдельные области на странице. А так... Вставить текст-бокс я и без файнридера смогу, текста немного, просто надпись к картинке оказалась встроена в саму картинку. Просто хочется что-то, on the fly, без перепрыгивания из программы в программу. |
Val61, боюсь, on the fly всё-таки не выйдет (поэкспериментировала с разными программами). Погружённый объект - он и в pdf матрёшка. Ловкость акробата и других "читателей " pdf не в распознавании, а в том, что они знают как и из чего был собран файл pdf. У них есть спецотвёртка. Пилы и молотка нет :( Сорри, если что... |
Это все понятно. Придется картинки вытаскивать, переводить отдельно, потом вставлять взад. Гимор, да. Вообще странно, что отдельную страницу распознать осиаром можно, а отдельную область на странице - нельзя. Недопилено. И в Инфиксе тоже, уж на что мощная прога, а в этом месте и она споткнулась. Наверняка где-то в дебрях интернетов плагинчик водится... Ладно. Некогда искать. Потом поищем. |
Val61, потому что с точки зрения софта это совсем разные задачи. Расшифровка известного программного кода известными средствами и распознавание образов. |
А в Document => OCR corrections - это не то? |
Нет, не то... Сорри |
Я обычно нашлепки делаю. Как обычная надпись, только с фоном. Если же текста такого (нередактируемого Инфиксом) много, то ФР использую... Действительно косячокс с инфикса. Могли бы что-то простецкое прикрутить. |
Вдогонку: Val61, у АББЫЫ Файнридера при установке есть возможность не отказаться от установки фичи Screenshot Reader. Запускаете эту фичу, на экране появляется крестик. Обводите этим крестиком любой текст на экране - и прога копирует обведенный текст в буфер обмена. Потом можно просто нажать Ctrl+V в любом текстовом редакторе (Ворд, Инфикс и др.) - текст вставится в буквописном виде. |
За скриншот ридер спасибо :up: Слышал о нем, но как-то не доводилось раньше пользоваться. В принципе, в отдельных случаях как паллиатива сойдет, где-то иногда минутку-другую сэкономит. Мне для моих данных конкретных целей, наверное, сгодится. |
не пойму, о чём вообще спор? 1) современный фотошоп прекрасно открывает файлы ПДФ, редактирует их в графическом виде и обратно сохраняет в пдф-же 2) современный акробат может как сохранять текстовую часть, так и распознать графическую (есть отменить соотв. опцию при сохранении) зачем копья так ломать? |
DpoH, думаю у Val ключевое "файл большой". |
современный акробат может как сохранять текстовую часть, так и распознать графическую Поподробнее, пожалуйста. Если у меня на странице ПДФ и текст, и изображение, я жму на OCR и он говорит, что распознавать не будет, т.к. на странице уже есть распознанный текст. В Акробате где-то есть опция OCR только выбранной (выделенной) области на странице? |
бросайте вы эти ПДФы!!! там в соседней ветке у Эссбукетова спрашивают как картинки в форум вставлять! нельзя этого допустить ящетаю ... |
спешиал фор Val61: в адоб акробат нажимаете: Файл - Сохранить как... - выбираете тип документа Документ ворд. Нажимаем кнопочку Настройки... и ставим птичечку Выполнить оптическое распознавание, если потребуется. Всё, вуа ля. |
DpoH, при этом на выходе (в моем конкретном случае) получается такая фигня, с которой невозможно работать. Все зависит от внутренней структуры исходного файла. Такой прием канает далеко не всегда. |
Упс, жаль, нельзя здесь свои опубликованные посты править. Вдогонку. У меня в данном файле есть картинки с текстом, которые нужно оставить именно как картинки, т.е. чтобы OCR не пытался распознавать текст в таких объектах. Но есть и картинки, текст внутри которых нужно превратить в текст. Пока не нашел ничего лучше, чем Файнридером заделать текстбоксы где нужно и, не трогая остального, полученное сохранить из ФР обратно в ПДФ. К сожалению, ФР заметно ухудшает качество полученного из него pdf, что особенно заметно в таблицах с мелким и разноцветным шрифтом. |
Blin, да что же это такое. Файл - Сохранить как... - выбираете тип документа Документ ворд. Нажимаем кнопочку Настройки... и ставим птичечку Выполнить оптическое распознавание, если потребуется. Всё, вуа ля. Да вот нифига. Текст в картинках при этом остается нераспознанным. Я об том и толкую: если в пдф есть нормальный текст, то встроенный OCR распознавать текст на картинках не будет. В Инфиксе тоже. Я думал, что есть какой-нибудь плагин к Акробату, который позволяет выборочно распознавать текст на картинках непосредственно в Акробате, без применения Файнридера, Фотошопа и вообще любого стороннего ПО. Но нет. Фокус не прокатит. Не нашел. К своему большому огорчению, файл для посмотреть о чем речь, выложить не могу. М.б. найду что-то похожее, тогда выложу. |
Val61, честно сказать, не проверял работу данной функции, ибо пользуюсь файнридером. Он всё таки надёжнее выглядит и привычнее. Но, теоретически, эта функция в акробате как раз и подразумевалась для "выборочно распознать текст в картинках." |
Эта функция работает, когда весь ПДФ представляет собой одно сплошное отсканированное изображение. Но когда файл выглядит вот так: http://yadi.sk/d/Vd0P7ctXDi6Sp и нужно распознать текст на встроенной картинке, не трогая в файле больше ничего, то Акробат здесь не работает. Если только, повторюсь, к нему нет какого-нибудь хитрого плагина. Но из истории всей этой ветки я понимаю, что если такой плагин и существует, то широким переводческим массам он неизвестен. ABBY Screenshot Reader частично помогает, можно вставить текстбокс рядом с отсканированным текстом. Но если исходный текст нужно удалить, то вся операция превращается в гимор, который уже лучше делать в том же ФР. |
Val61, простите за нескромный вопрос, что вам мешает запустить Файнридер и выполнить все необходимые действия? |
DpoH: 150 страниц. Процентов на 80 текст "настоящий" и с ним проблем нет. Естественное желание - загнать весь пакет в Инфикс, извлечь текст в кошку и переводить. Но! Сделать вот так просто не получается, потому что по тексту раскидано около 20-30 картинок со встроенными в них надписями. Приходится именно что запускать Файнридер и терять время. Именно эту часть процесса хотелось как-то автоматизировать. Потому что суммарная потеря на приведение проекта в порядок в Файнридере - около трех часов. |
|
link 3.12.2013 10:42 |
Программа PDF-XChangeViewer позволяет наложить текстовые заплатки (по аналогии с text boxes в Ворде) непосредственно в PDF. Программа очень продвинутая, но нигде не нашел в ней функцию выравнивания по всей ширине страницы. |
intertrans, что PDF-XChangeViewer может такого, чего не может сам Акробат? |
да ёжкин кот! да хоть 250 страниц, это меняет суть вопроса? Загоняйте весь документ в файнридер, потом кнопочкой DEL удалите из проекта страницы с текстом, оставив страницы с картинками. Далее, распознавайте их и редактируйте в своё удовольствие. |
А как потом сшивать все обратно? |
И еще. На одной странице и текст, и картинки со встроенным в них текстом. На некоторых из этих картинок текст нужно распознать, а на некоторых - не нужно. Куда удалять такую страницу? Конечно я могу все это проделать в Файнридере. Но смысл вопроса был в другом: можно ли обойтись без Файнридера, одними лишь средствами Акробата или специально дописанными к Акробату приблудами. Потому что обращение к Файнридеру требует слишком больших ( по моему мнению) затрат времени на эту подготовку документа к переводу. |
PDF-XchangeViewer позволяет именно заплатки в отдельном слое рисовать. Функция OCR у него есть, но работает она не так хорошо, как в FineReader'е. Годится для простейших операций вроде копи-пейста из pdf-скана в Word пары абзацев. В FineReader'е есть возможность заранее устанавливать блоки и определять их тип. То есть там, где рисунок с текстом, который надо распознать, следует вручную установить блок, переопределив его тип из "рисунок" в "текст". Тогда FineReader будет пытаться внутренности распознавать. |
alk, именно это я и делаю. Ставлю в Файнридере на картинках текстбоксы и сохраняю обратно в ПДФ. К сожалению, при таком пересохранении, очень мелкий, да к тому же еще и разноцветный, текст собственно самого ПДФ (который и был текстом с самого начала и который трогать не нужно) искажается Файнридером так, что потом некорректно распознается Инфиксом. Возможно, надо еще раз как-то пересохранить в Акробате с какими-то опциями, я еще с этим бубном потом потанцую. Сохранять же в Ворд я не хочу потому что: сохранение идет некорректно, плывут размеры, межстрочные интервалы и т.д. И, плюс, файл разбухает до каких-то бешеных мегабайтов. Инфикс же гарантирует 100% сохранение исходного формата (ну там по мелочи подправить, ерунда). Жаль, на словах не объяснишь, а страничку выложить не могу. Ну и, самое главное: без Файнридера никак, насколько я понимаю. Именно это и жаль. |
You need to be logged in to post in the forum |