OFF: Подсчет объема в PDF

link 27.02.2010 12:23

Subject: OFF: Подсчет объема в PDF

Вот возникла непонятная ситуация: предложен на перевод документ в PDF. Я его трансформировала в Word, посчитала объем, сообщила заказчику. Он не согласен, говорит, что считал через FineReader (я не знаю этого способа), и у него получилось меньше. Поскольку объем документа большой, то и разница довольно существенная, а оплата предполагается по входящему объему. В чем тут дело, почему такая разница, кто-нибудь с этим сталкивался?

eu_br ✉

link 27.02.2010 12:29

А как Вы трансформировали pdf в word?

Toropat ✉

link 27.02.2010 12:33

eu_br is absolutely right. Расскажите подробнее, как вы трансформировали pdf в Word, тогда можно будет разобраться.

Если оригинал не сканированный, а трансформированный, то можно бывает просто выделить всё, вставить в Word и далее обычным порядком посмотреть статистику. Однако иногда в тексте бывают растровые рисунки с надписями, и число символов в них при этом уже учитываться не будет (т.к. для программы это уже не текст, а точечное изображение). То же касается и надписей, вставляемых в документ через панель "Рисование".

ФайнРидер распознает документы оптически (OCR), поэтому подходит и для сканированных документов. Результат опять же предлагается сохранить в офисных приложениях, напр., в том же ворде. Правда, если документ имеет сложное форматирование, схемы, таблицы и пр., или он нечеткий (напр. копия с факса), то часто получается фигня, с которой и работать-то не захочешь.

Syrira ✉

link 27.02.2010 12:57

Для конвертирования в Word существует довольно много программ-трансформеров. Можно бесплатно скачать из Интернета, а можно немного потратиться на ABBY PDF Transformer. Результаты конвертирования очень хорошие, но я все-таки не понимаю, за счет чего разница в объеме. Toropat говорит, что в транформированном документе не учитываются надписи в рисунках, но у меня-то наоборот получается объем больше, чем через FineReader.

standby ✉

link 27.02.2010 13:34

если заказчик пользуется Finereader'om, так может, он и документ пришлет в текстовом формате?

gel ✉

link 27.02.2010 13:37

I. HATE. PDF.
поубивал бы...

N_N ✉

link 27.02.2010 13:37

Если заказчик распознавал файнридером с сохранением полного оформления документа, то часть текста могла быть распознана как текстбоксы, которые потом статистикой ворда не учитываются. Посоветуйте ему посчитать другой программой (PractiCount, AnyCount или др.) или сохранить распознанный текст без форматирования и посчитать статистику еще раз.
Кстати, Вас спрашивали, чем именно Вы трансформировали в Word, а не чем вообще можно. Ответ на первый вопрос может прояснить причину расхождения.

Enote ✉

link 27.02.2010 14:11

дык вышлите заказчику ваш Вордовский вариант
и попросите у него его Файнридерный

Александр Владимирович ✉

link 27.02.2010 14:23

"текстбоксы" учитываются в ВОРД 2007

Syrira ✉

link 27.02.2010 14:47

Трансформировала через ABBY PDF Transformer, для проверки пробовала и другие программы, результат одинаковый - все равно при переводе в Word больше, чем в FineReader. Заказчик, естественно, упорно стоит на своем варианте и на мой смотреть не хочет, потому что у него получается меньше и ему так выгодней.

Александр Владимирович ✉

link 27.02.2010 14:52

попробуйте в своем тексте поискать двойные пробелы и заменить их на одинарные

newbe ✉

link 27.02.2010 15:27

Ну, дык, может тут дело не в PDF>Word vs Word>PDF, может тут сам заказчик хочет (мягко выражаясь грубо говоря) Вас надуть. Я, честно говоря, с такой проблемой не сталкивался, но если машина считает, то придраться не к чему (N_N прав(а), пусть пришлют вам свой экземпляр, тут сразу все видно станет).

eu_br ✉

link 27.02.2010 15:28

Попросите заказчика прислать Вам его результат распознавания в FineReader. В ворде сделайте "сравнение документов" - увидите, за счет чего разница. Затем предложите заказчику два варианта: 1) Вы переводите ТОЛЬКО то, что в результате распознавания у Заказчика (очевидно, какая-то информация будет утрачена) по расчетам Заказчика и 2) Вы переводите то, что увидите в PDF, но по своим расчетам.