DictionaryForumContacts

 scarface

link 21.05.2008 13:55 
Subject: OFF: Таблицы в PDF конвертировать в word
Какой прогой можно? Пробовал через SolidConverterPDF 3.1 - получилось конвертировать в ворд, но в ворде эти таблицы являются нередактируемыми =(((

Заранее спасибо

 Clint Ruin

link 21.05.2008 13:59 
Adobe Acrobat Pro - пометить, кликнуть правой клавишей, сказать "copy as table", вставить в Ворд - править.

 DpoH

link 21.05.2008 14:01 
FineReader - открыть файл, распознать и сохранить

 Maxxim

link 21.05.2008 14:31 
Очень странно.
Сборка SolidConverterPDF свежая?
В Мастере конвертации вы все этапы прошли?
Галку на этапе Detect Tables (у меня это третий этап, версия 3.1, сборка 437) поставить не забыли?

Если совсем никак с SolidConverterPDF, то FineReader обычно помогает.

 'More

link 21.05.2008 14:38 
только табличку лучше вручную при помощи соответствующей клавиши поделить, проблем поменьше будет...

 scarface

link 21.05.2008 14:45 
Maxxim
У меня точно такая же = версия 3.1, сборка 437... Этапы конечно все прошел. Галку поставил где надо.
Проблема в том, что эти файлы скорее всего не собственно пдф, а вставленные в пдф джпеги. И насколько я понимаю таковые PDF файлы не конвертируются...

 DpoH

link 21.05.2008 14:51 
scarface,
вам ещё раз говорю: через FineReader конвертируется ВСЁ

 Maxxim

link 21.05.2008 14:59 
> вставленные в пдф джпеги
Бывает и такое. :)

Коллеги правы: FineReader вам поможет.

 scarface

link 21.05.2008 15:10 
DpoH
Спасибо за инфу! Какую версию качать? Demo версия позволяет конвертировать? Может у вас ссылка есть с кряком =)

Сорри за множество вопросов...

 Maxxim

link 21.05.2008 16:10 
Берите последнюю версию с официального сайта. Там же и узнаете, что именно она позволяет.

А вот про кряки давайте здесь не будем. Для них есть специально отведенные места. А кто мест не знает, для того есть поисковики. Sapienti sat.

 tumanov

link 21.05.2008 16:25 
Демоверсия работает 30 дней и только потом просит активацию. За 30 дней можно успеть, по-моему.

По крайней мере, раньше пару лет назад так было.

 svh

link 21.05.2008 19:58 
Можете, кстати, приобрести PDF Transformer от той же ABBYY. Стоит гораздо дешевле FineReader, а с конвертацией pdf файлов в Ворд в большинстве случаев справляется вполне достойно.

 SirReal moderator

link 22.05.2008 0:51 
Моя демоверсия не позволяла экспортить результаты сканирования :(

 Jespa

link 22.05.2008 4:21 
Меня вопрос конвертирования таблиц из pdf в word или excel тоже очень волнует. Имеется файл pdf 400 страниц, почти сплошь состоящий из таблиц (не отсканированные, не джипеги). При конвертировании SolidConverter (3.1, сборка 457) и установленной галочке "определять таблицы" распозняются только небольшие таблички из нескольких строк и трех-четырех столбцов, а вместо больших таблиц на несколько страниц в ворде только пустое место. Приходится собирать эти таблицы вручную в ехсеl, но это очень долго, FineReader тоже не особо помогает.
Посоветуйте, пожалуйста, программу, которая справляется с таблицами лучше SolidConverter'a

 Thellonius

link 22.05.2008 9:57 
2Jespa

Как это Файнридер не помогает?

 alk moderator

link 22.05.2008 10:19 
тема эта неоднократно поднималась на форуме, и говорилось уже, что сам подход с конвертированием из pdf во что-то редактируемое не совсем верен.
PDF - это по определению финальная версия документа, приготовленная для публикации, печати, чтения, но не для редактирования. Это важно понимать и во всех возможных и невозможных случаях требовать оригинала документа, из которого получен pdf.
Если требуется перевести собственно текст, то его всегда легче получить/импортировать из оригинала, пусть это хоть издательская система. Требуйте у заказчика текст. В исключительных случаях, особенно если в pdf "загнали" чистый скан, то есть вместо собственно текста имеется изображение текста, на помощь придет Finereader, позволяющий распознать текст из изображения. Конечно, обычный текстовый pdf Finereader тоже видит и позволяет извлечь, но времени на исправление ошибок в распознавании оформления текста может потребоваться на порядок больше, чем на само распознавание.

 Jespa

link 22.05.2008 11:16 
to Thellonius
FineReader, безусловно, все распознает. Я имею ввиду, что он не помогает экономить время. Приходится текст из каждой ячейки в pdf копировать и вставлять в excel, затем объединять некоторые ячейки, ставить границы разной жирности, так что на сборку и оформление таблиц времени уходит намного больше, чем на собственно перевод.
to Alk
документ мне дали и вовсе в бумажном виде, а pdf в интернете нашла
буду ручками собирать :( благо у меня timework

 alk moderator

link 22.05.2008 11:22 
Jespa - Вам нужно внимательнее изучить возможности Finereader'а.
Он позволяет пользователю вручную задать участки на распознаваемой странице (блоки) и присвоить им определенный тип, если сам FR не смог сделать это правильно. Можно определить тип блока "таблица" и вручную задать расположение столбцов и строк, тогда FR не только распознает содержимое, но и правильно сконвертирует таблицу в Excel.

 Jespa

link 22.05.2008 11:38 
to Alk
я так и делала, но на ручное выставление столбцов и строк в файнриделе уходит дикое количество времени (400 (!) страниц нужно сделать) и после конвертации в excel все равно нужно объединять множество ячеек, составлять кусочки слов и т.п. (таблицы в моем документе сделаны весьма замысловато). эмпирическим путем было выяснено, что быстрее копирование текста из пдф в эксель.

 alk moderator

link 22.05.2008 11:59 
если таблицы идентичны по расположению строк и столбцов и не поддаются правильному их автораспознаванию, то можно попробовать использовать сохраняемые заготовки (маски, кажется) в FR и накладывать их на последующие страницы.
Судя по тому, что Вы описываете, намного проще вообще ничего не распознавать, тем более, если это потом еще надо переводить. Пишите с чистого листа и учтите это в расценках.

 

You need to be logged in to post in the forum