ОФФ: Подсчет количества знаков в большом количестве pdf-файлов

link 28.07.2006 11:13

Subject: ОФФ: Подсчет количества знаков в большом количестве pdf-файлов

Меня тут попросили оценить заказ, который представляет собой сотню с лишним pdf-файлов разного размера. Не знает ли кто случайно способа, как можно было бы автоматизировать подсчет знаков?
Спасибо

Natasha_777 ✉

link 28.07.2006 11:16

Пропустить через pdf-transformer.

10-4 ✉

link 28.07.2006 11:17

Save as text (.txt) file first, then count by Word Statistics

Aiduza ✉

link 28.07.2006 11:17

установите Fine Reader, распознайте документ, выведите в формат Word, посчитайте знаки ("Статистика").

Jacka ✉

link 28.07.2006 11:25

Уважаемые дамы и господа, это я все понимаю. На то, чтобы сделать сopy-paste в word и воспользоваться функцией "статистика" моих знаний хватает.
Меня просто несколько ломает это делать сто с лишним раз, вот я и спрашиваю, не существует ли _автоматических_ способов.

2 Natasha_777
Роботов-трансформеров знаю, pdf-трансформеров не встречал. Вы имеете в виду конвертеры в Word? Т.е. сделать batch conversion в word, а потом слить документы? Если я Вас понял правильно, подскажите, каким конвертером Вы пользуетесь, а то все, которые я видел, работают кривовато, и запросто могут наделать лишних пробелов, а это весьма нежелательно.

Тантан ✉

link 28.07.2006 11:28

есть такая милая программа PractiCount. прогоняешь через нее, и сразу видно сколько слов, сколько знаков, а если заранее цену задать за слово, то и стоимость подсчитает.

alk ✉

link 28.07.2006 11:31

Но учтите, важно, чтобы pdf содержал именно текст, где все эти слова и символы находятся. Многие современные pdf'ы это просто сканы бумажных оригиналов, там текст это не текст, а изображение текста.
Без оптического распознавания (finereader) не обойтись.

Natasha_777 ✉

link 28.07.2006 11:36

Jacka, pdf-transformer - это продукт компании ABBYY, который преобразует пдф в формат ворд / эксэл.
Для этого качество пдф должно быть как минимум средним (с качеством факса, к примеру, куски не прочитает).
Соответственно, Вы можете прогнать через него все документы, а потом посчитать обычной вордовской статистикой.
Демо-версию можно скачать на сайте ABBYY.
Или воспользоваться другими советами, смотря как Вам удобнее :)

Jacka ✉

link 28.07.2006 11:44

2 Тантан:
Спасибо, то, что нужно. Классная вещь!
Жалко, что они столько денег за нее дерут, а то купил бы по-честному:)

Еще раз всем спасибо.

tumanov ✉

link 29.07.2006 11:43

http://practiline.com/

тут скачать практикаунт.
++++++++++++++++++++++++++++++
а тут anycount. Anycount лучше (и дешевле)

http://www.anycount.com/

Brains ✉

link 29.07.2006 13:05

Это я удачно зашёл! Умный вопрос и очень полезный ответ.
Спасибо, tumanov и Jacka!

Юрок ✉

link 29.07.2006 14:49

А кто бы еще код для PractiCount выложил, а?

Brains ✉

link 29.07.2006 15:14

А купить слабо, брателло?
Ах, поворую – перестану, жду — вот-вот богатым стану,
Вот тогда начну опять я законы соблюдать.
© Михаил Шуфутинский

Anton Klimenko ✉

link 29.07.2006 17:31

Интересно, есть ли программа, способная выполнить такой подсчет количества знаков/слов в формате .fm (Adobe FrameMaker)? Актуально для меня сейчас, подскажите, если кто знает. Упомянутые проги по-видимому в этом формате не подсчитывают..

Brains ✉

link 29.07.2006 18:58

А он сам разве не умеет? Жаль, у меня он на работе, а сюда ставить влом. Но что мешает перегнать публикацию в любой иной формат и подсчитать текст там?

Anton Klimenko ✉

link 29.07.2006 19:16

Сорри, наверное, следовало подробнее описать.. :) Дело в том, что исходник в формате .book и содержит много самых разнородных сегментов (cross-references, PDF файлы, .fm и т.д.), просто так его импортировать весь, как я импортировал бы отдельно взятый .fm я не могу (может, потому, что с этой прогой знаком всего неделю :)) Возможности подсчета статистики не нахожу (опять же, может, не там смотрю)..

Brains ✉

link 29.07.2006 19:34

Но как-то Вы собираетесь же извлекать оттуда текст? Или собираетесь прямо там переводить? =:-О
Чтобы так или иначе до текста добраться, файл придётся открыть. Если файл можно открыть, из него запросто извлекается текст посредством элементарнейшего перевода в другой формат. Работа во Фраме с кириллическими документами имеет сродство с шаманизмом, но Вы ж решились? Ну отгоните из него MIF, загрузите в кошку и там считайте себе, сколько влезет (не представляю кошку, которая бы MIF не читала). Или просто в PDF перегоните. Никак проблемы вашей не пойму.

…просто так его импортировать весь, как я импортировал бы отдельно взятый .fm я не могу…

Я даже как Вы им пользоваться не умею (интерфейс у него марсианский почище, чем у Ильи), так что просто не понимаю, о каком импорте речь. Ну book себе и book: как я понимаю, будет Вам недоставать каких-то составляющих всего документа, которые Вы не переводите. Но уж MIF отогнать это вряд ли мешает.

Anton Klimenko ✉

link 29.07.2006 20:17

Переводить приходится именно в нем, хотят его получить в исходном виде.. Наверное, изначально можно было бы скопировать в другой документ, но в исходнике - не побоюсь этого слова - кишат маркеры, перекрестные ссылки и всякая другая ... :) Заказчик, кстати, просил, чтобы мы этого не делали (в смысле, не копировали из других редакторов).

Но спасибо за совет: если эти десятка три .fm файлов (входящих в состав 2-х .book-ов) перегнать в PDF, возможно, получится все посчитать. хоть и времени потребует, но возможно.
Насчет интерфейса - это да, согласен полностью.

P.S. Кстати, а что с кириллическими документами? нормально отображаются, если выбрать например Arial CYR.. или я чего-то не понял? Возможно, избежать проблемы со шрифтами помогает опция Remember Missing Font Names.

P.P.S. А что такое MIF?

Brains ✉

link 29.07.2006 21:09

2 Anton Klimenko

Переводить приходится именно в нем, хотят его получить в исходном виде.. Наверное, изначально можно было бы скопировать в другой документ, но в исходнике - не побоюсь этого слова - кишат маркеры, перекрестные ссылки и всякая другая ... :) Заказчик, кстати, просил, чтобы мы этого не делали (в смысле, не копировали из других редакторов).

Вообще-то это чистое хамство по отношению к Вам: FrameMaker при всей его гнусности как раз и славен своей способностью к автоматической вёрстке, что позволяет отделить обработку текста от вёрстки и форматирования.
То, чем Вы вознамерились заняться — рабский, Сизифов труд. Любопытно, какой у Вас поправочный коэффициент на такие переводики?

Кстати, а что с кириллическими документами? нормально отображаются, если выбрать например Arial CYR.. или я чего-то не понял? Возможно, избежать проблемы со шрифтами помогает опция Remember Missing Font Names.
P.P.S. А что такое MIF?

Человек, который, взявшись за FM, спрашивает, что такое MIF, вряд ли поймёт ответ (если отвечающий не сподобится написать учебник, который следовало бы читать до начала работы с программой, а не в процессе).
Но Вы даже не видите разницы между выводом документа на дисплей и работой с ним… FM до последней версии был практически не в состоянии работать с текстом, выходившим за рамки верхней половины таблицы ASCII. Кириллицу же он и вовсе до 2003 года воспринимал как недопустимые символы. К выпуску 7 версии Adobe кое-что подлатала, но именно кое-что и именно подлатала. И по сей день программа осталась на 8-битном движке, то есть Юникода не поддерживает в принципе и понимает его с огромным трудом. Соответственно, в FM возможно такое, чего не встретишь больше нигде: верстальная программа спотыкается на символах ё, р, ч, э, ю (то есть не именно на этих, а вообще на любых, которые в других кодовых страницах стоят на тех же местах) и даже может их терять при экспорте. К ней невозможно нормально подключить словари от WinSoft (это делается, но вопреки воле создателей и ректально), ни орфографические, ни переносов. Для неё является проблемой импорт кириллических документов Word и даже RTF и запись сложных кириллических документов в PDF…
Перечень граблей можно множить и множить. Часть из них лечится плясками с бубном, часть вообще неизлечима и к ним надо просто приспособиться. В общем, программы аналогичного масштаба и назначения, более непригодной для работы именно с документами на русском языке, в природе просто не существует. По этой причине я до сих пор и воздерживаюсь от трудозатрат по её освоению: в этой стране такое имеет смысл только под руководством опытного шамана и в процессе работы за полноценную ставку.
В общем, даже если не иметь дела с самим FM и переводить только голый MIF, ещё не факт, что результаты удастся запихать назад (впрочем, русские умельцы наверняка с этим справились бы). Но переводить прямо в нём… безумству храбрых поём мы соответствующую песню. :-)))

Anton Klimenko ✉

link 29.07.2006 21:57

Ну, знаете, Brains, все-таки экспериментировать с прогой, которую впервые видишь (тем более с такой), когда за это с учетом locality, где я живу, платят отлично и всего лишь просят сохранить исходное форматирование и все сделать в срок, я не хотел бы. :)
За FM беремся вынужденно, ибо сие есть непременное условие заказчика. Конечно, какой-нить человеческий формат был бы лучше, но это не всегда от нас зависит.
Версия, в которой работаем - 7.2. Траблов с отображением кириллицы нет. :-))

Aiduza ✉

link 29.07.2006 22:04

Не заморачивайтесь, берите пиратскую версию файнридера, какие проблемы с этим могут быть в москве? один поход на горбушку вправит вам мозги. честно. каким бы честным вы бы ни были.

Anton Klimenko ✉

link 29.07.2006 22:21

оказалось, что все-таки возможность подсчета статистики в FM есть, только что нашел, если кому-нибудь понадобится:

File > Utilities > Document Reports... > WordCount... (click on Run...)

:-))

Brains ✉

link 29.07.2006 23:10

2 Anton Klimenko

…всего лишь просят сохранить исходное форматирование и все сделать в срок…

Так вот именно по этой причине я бы сам FM и постарался бы обойти стороной, и затребовал бы от них то же самое в MIF. Как делают все уважающие себя переводчики (пользователей FM вообще можно по пальцам пересчитать, а уж среди переводчиков это совсем уж уникальное явление).

Конечно, какой-нить человеческий формат был бы лучше, но это не всегда от нас зависит.

Странно: говорю ж Вам — MIF.

Версия, в которой работаем - 7.2.

Ух ты! Уже 7.2 есть? Я отстал от жизни? Позор джунглям…

Траблов с отображением кириллицы нет. :-))

Дык с отображением и у 7.0, насколько я знаю, их не было.
Интересно, что будет дальше.

Brains ✉

link 29.07.2006 23:13

2 Anton Klimenko

оказалось, что все-таки возможность подсчета статистики в FM есть…

Хоть что-то человеческое ему не чуждо! :-)

Lebed ✉

link 29.07.2006 23:39

2 Brains:
Я плакаль))) дело в том, что я тоже работаю над этим проЖектом и с удовольствием читала Ваши восторженные отзывы об ФМ.
Преклоняюсь перед Вашими знаниями (я - ламер, не побоюсь этого слова), а также спасибо за сочувстие)))
П.С. Даже ламер может стать хакером :-)

Brains ✉

link 30.07.2006 2:27

2 Lebed

…а также спасибо за сочувстие)))

Похоже, пока я один представляю возможные масштабы ожидающего Вас веселья. Дай бог, чтобы мои опасения подтвердились лишь частично. Вообще насколько легче живётся человеку, пока он в неведении. ;-)))

П.С. Даже ламер может стать хакером :-)

Не бывать плешатому кудрявым, не бывать гулящему богатым. Из ламера по определению не получится ничего путного, в том числе и хакера: хакеры получаются из чайников и юзверей. :-)
А Вы юзверь, чайник или квадратный чайник?
Ламер: Глянь-ка на мой листинг — где у меня ошибка?
Хакер: В ДНК!
© Устное народное творчество