OFF: Таблицы в PDF конвертировать в word

link 21.05.2008 13:55

Subject: OFF: Таблицы в PDF конвертировать в word

Какой прогой можно? Пробовал через SolidConverterPDF 3.1 - получилось конвертировать в ворд, но в ворде эти таблицы являются нередактируемыми =(((

Заранее спасибо

Clint Ruin ✉

link 21.05.2008 13:59

Adobe Acrobat Pro - пометить, кликнуть правой клавишей, сказать "copy as table", вставить в Ворд - править.

DpoH ✉

link 21.05.2008 14:01

FineReader - открыть файл, распознать и сохранить

Maxxim ✉

link 21.05.2008 14:31

Очень странно.
Сборка SolidConverterPDF свежая?
В Мастере конвертации вы все этапы прошли?
Галку на этапе Detect Tables (у меня это третий этап, версия 3.1, сборка 437) поставить не забыли?

Если совсем никак с SolidConverterPDF, то FineReader обычно помогает.

'More ✉

link 21.05.2008 14:38

только табличку лучше вручную при помощи соответствующей клавиши поделить, проблем поменьше будет...

scarface ✉

link 21.05.2008 14:45

Maxxim
У меня точно такая же = версия 3.1, сборка 437... Этапы конечно все прошел. Галку поставил где надо.
Проблема в том, что эти файлы скорее всего не собственно пдф, а вставленные в пдф джпеги. И насколько я понимаю таковые PDF файлы не конвертируются...

DpoH ✉

link 21.05.2008 14:51

scarface,
вам ещё раз говорю: через FineReader конвертируется ВСЁ

Maxxim ✉

link 21.05.2008 14:59

> вставленные в пдф джпеги
Бывает и такое. :)

Коллеги правы: FineReader вам поможет.

scarface ✉

link 21.05.2008 15:10

DpoH
Спасибо за инфу! Какую версию качать? Demo версия позволяет конвертировать? Может у вас ссылка есть с кряком =)

Сорри за множество вопросов...

Maxxim ✉

link 21.05.2008 16:10

Берите последнюю версию с официального сайта. Там же и узнаете, что именно она позволяет.

А вот про кряки давайте здесь не будем. Для них есть специально отведенные места. А кто мест не знает, для того есть поисковики. Sapienti sat.

tumanov ✉

link 21.05.2008 16:25

Демоверсия работает 30 дней и только потом просит активацию. За 30 дней можно успеть, по-моему.

По крайней мере, раньше пару лет назад так было.

svh ✉

link 21.05.2008 19:58

Можете, кстати, приобрести PDF Transformer от той же ABBYY. Стоит гораздо дешевле FineReader, а с конвертацией pdf файлов в Ворд в большинстве случаев справляется вполне достойно.

SirReal ✉ moderator

link 22.05.2008 0:51

Моя демоверсия не позволяла экспортить результаты сканирования :(

Jespa ✉

link 22.05.2008 4:21

Меня вопрос конвертирования таблиц из pdf в word или excel тоже очень волнует. Имеется файл pdf 400 страниц, почти сплошь состоящий из таблиц (не отсканированные, не джипеги). При конвертировании SolidConverter (3.1, сборка 457) и установленной галочке "определять таблицы" распозняются только небольшие таблички из нескольких строк и трех-четырех столбцов, а вместо больших таблиц на несколько страниц в ворде только пустое место. Приходится собирать эти таблицы вручную в ехсеl, но это очень долго, FineReader тоже не особо помогает.
Посоветуйте, пожалуйста, программу, которая справляется с таблицами лучше SolidConverter'a

Thellonius ✉

link 22.05.2008 9:57

2Jespa

Как это Файнридер не помогает?

alk ✉ moderator

link 22.05.2008 10:19

тема эта неоднократно поднималась на форуме, и говорилось уже, что сам подход с конвертированием из pdf во что-то редактируемое не совсем верен.
PDF - это по определению финальная версия документа, приготовленная для публикации, печати, чтения, но не для редактирования. Это важно понимать и во всех возможных и невозможных случаях требовать оригинала документа, из которого получен pdf.
Если требуется перевести собственно текст, то его всегда легче получить/импортировать из оригинала, пусть это хоть издательская система. Требуйте у заказчика текст. В исключительных случаях, особенно если в pdf "загнали" чистый скан, то есть вместо собственно текста имеется изображение текста, на помощь придет Finereader, позволяющий распознать текст из изображения. Конечно, обычный текстовый pdf Finereader тоже видит и позволяет извлечь, но времени на исправление ошибок в распознавании оформления текста может потребоваться на порядок больше, чем на само распознавание.

Jespa ✉

link 22.05.2008 11:16

to Thellonius
FineReader, безусловно, все распознает. Я имею ввиду, что он не помогает экономить время. Приходится текст из каждой ячейки в pdf копировать и вставлять в excel, затем объединять некоторые ячейки, ставить границы разной жирности, так что на сборку и оформление таблиц времени уходит намного больше, чем на собственно перевод.
to Alk
документ мне дали и вовсе в бумажном виде, а pdf в интернете нашла
буду ручками собирать :( благо у меня timework

alk ✉ moderator

link 22.05.2008 11:22

Jespa - Вам нужно внимательнее изучить возможности Finereader'а.
Он позволяет пользователю вручную задать участки на распознаваемой странице (блоки) и присвоить им определенный тип, если сам FR не смог сделать это правильно. Можно определить тип блока "таблица" и вручную задать расположение столбцов и строк, тогда FR не только распознает содержимое, но и правильно сконвертирует таблицу в Excel.

Jespa ✉

link 22.05.2008 11:38

to Alk
я так и делала, но на ручное выставление столбцов и строк в файнриделе уходит дикое количество времени (400 (!) страниц нужно сделать) и после конвертации в excel все равно нужно объединять множество ячеек, составлять кусочки слов и т.п. (таблицы в моем документе сделаны весьма замысловато). эмпирическим путем было выяснено, что быстрее копирование текста из пдф в эксель.

alk ✉ moderator

link 22.05.2008 11:59

если таблицы идентичны по расположению строк и столбцов и не поддаются правильному их автораспознаванию, то можно попробовать использовать сохраняемые заготовки (маски, кажется) в FR и накладывать их на последующие страницы.
Судя по тому, что Вы описываете, намного проще вообще ничего не распознавать, тем более, если это потом еще надо переводить. Пишите с чистого листа и учтите это в расценках.

You need to be logged in to post in the forum

Get short URL