Subject: ОФФ: Подсчет количества знаков в большом количестве pdf-файлов Меня тут попросили оценить заказ, который представляет собой сотню с лишним pdf-файлов разного размера. Не знает ли кто случайно способа, как можно было бы автоматизировать подсчет знаков?Спасибо |
|
link 28.07.2006 11:16 |
Пропустить через pdf-transformer. |
Save as text (.txt) file first, then count by Word Statistics |
установите Fine Reader, распознайте документ, выведите в формат Word, посчитайте знаки ("Статистика"). |
Уважаемые дамы и господа, это я все понимаю. На то, чтобы сделать сopy-paste в word и воспользоваться функцией "статистика" моих знаний хватает. Меня просто несколько ломает это делать сто с лишним раз, вот я и спрашиваю, не существует ли _автоматических_ способов. 2 Natasha_777 |
есть такая милая программа PractiCount. прогоняешь через нее, и сразу видно сколько слов, сколько знаков, а если заранее цену задать за слово, то и стоимость подсчитает. |
Но учтите, важно, чтобы pdf содержал именно текст, где все эти слова и символы находятся. Многие современные pdf'ы это просто сканы бумажных оригиналов, там текст это не текст, а изображение текста. Без оптического распознавания (finereader) не обойтись. |
|
link 28.07.2006 11:36 |
Jacka, pdf-transformer - это продукт компании ABBYY, который преобразует пдф в формат ворд / эксэл. Для этого качество пдф должно быть как минимум средним (с качеством факса, к примеру, куски не прочитает). Соответственно, Вы можете прогнать через него все документы, а потом посчитать обычной вордовской статистикой. Демо-версию можно скачать на сайте ABBYY. Или воспользоваться другими советами, смотря как Вам удобнее :) |
2 Тантан: Спасибо, то, что нужно. Классная вещь! Жалко, что они столько денег за нее дерут, а то купил бы по-честному:) Еще раз всем спасибо. |
http://practiline.com/ тут скачать практикаунт. |
Это я удачно зашёл! Умный вопрос и очень полезный ответ. Спасибо, tumanov и Jacka! |
А кто бы еще код для PractiCount выложил, а? |
А купить слабо, брателло? Ах, поворую – перестану, жду — вот-вот богатым стану, Вот тогда начну опять я законы соблюдать. © Михаил Шуфутинский |
|
link 29.07.2006 17:31 |
Интересно, есть ли программа, способная выполнить такой подсчет количества знаков/слов в формате .fm (Adobe FrameMaker)? Актуально для меня сейчас, подскажите, если кто знает. Упомянутые проги по-видимому в этом формате не подсчитывают.. |
А он сам разве не умеет? Жаль, у меня он на работе, а сюда ставить влом. Но что мешает перегнать публикацию в любой иной формат и подсчитать текст там? |
|
link 29.07.2006 19:16 |
Сорри, наверное, следовало подробнее описать.. :) Дело в том, что исходник в формате .book и содержит много самых разнородных сегментов (cross-references, PDF файлы, .fm и т.д.), просто так его импортировать весь, как я импортировал бы отдельно взятый .fm я не могу (может, потому, что с этой прогой знаком всего неделю :)) Возможности подсчета статистики не нахожу (опять же, может, не там смотрю).. |
Но как-то Вы собираетесь же извлекать оттуда текст? Или собираетесь прямо там переводить? =:-О Чтобы так или иначе до текста добраться, файл придётся открыть. Если файл можно открыть, из него запросто извлекается текст посредством элементарнейшего перевода в другой формат. Работа во Фраме с кириллическими документами имеет сродство с шаманизмом, но Вы ж решились? Ну отгоните из него MIF, загрузите в кошку и там считайте себе, сколько влезет (не представляю кошку, которая бы MIF не читала). Или просто в PDF перегоните. Никак проблемы вашей не пойму. …просто так его импортировать весь, как я импортировал бы отдельно взятый .fm я не могу…Я даже как Вы им пользоваться не умею (интерфейс у него марсианский почище, чем у Ильи), так что просто не понимаю, о каком импорте речь. Ну book себе и book: как я понимаю, будет Вам недоставать каких-то составляющих всего документа, которые Вы не переводите. Но уж MIF отогнать это вряд ли мешает. |
|
link 29.07.2006 20:17 |
Переводить приходится именно в нем, хотят его получить в исходном виде.. Наверное, изначально можно было бы скопировать в другой документ, но в исходнике - не побоюсь этого слова - кишат маркеры, перекрестные ссылки и всякая другая ... :) Заказчик, кстати, просил, чтобы мы этого не делали (в смысле, не копировали из других редакторов). Но спасибо за совет: если эти десятка три .fm файлов (входящих в состав 2-х .book-ов) перегнать в PDF, возможно, получится все посчитать. хоть и времени потребует, но возможно. P.S. Кстати, а что с кириллическими документами? нормально отображаются, если выбрать например Arial CYR.. или я чего-то не понял? Возможно, избежать проблемы со шрифтами помогает опция Remember Missing Font Names. P.P.S. А что такое MIF? |
2 Anton KlimenkoПереводить приходится именно в нем, хотят его получить в исходном виде.. Наверное, изначально можно было бы скопировать в другой документ, но в исходнике - не побоюсь этого слова - кишат маркеры, перекрестные ссылки и всякая другая ... :) Заказчик, кстати, просил, чтобы мы этого не делали (в смысле, не копировали из других редакторов).Вообще-то это чистое хамство по отношению к Вам: FrameMaker при всей его гнусности как раз и славен своей способностью к автоматической вёрстке, что позволяет отделить обработку текста от вёрстки и форматирования. То, чем Вы вознамерились заняться — рабский, Сизифов труд. Любопытно, какой у Вас поправочный коэффициент на такие переводики? Кстати, а что с кириллическими документами? нормально отображаются, если выбрать например Arial CYR.. или я чего-то не понял? Возможно, избежать проблемы со шрифтами помогает опция Remember Missing Font Names.Человек, который, взявшись за FM, спрашивает, что такое MIF, вряд ли поймёт ответ (если отвечающий не сподобится написать учебник, который следовало бы читать до начала работы с программой, а не в процессе). Но Вы даже не видите разницы между выводом документа на дисплей и работой с ним… FM до последней версии был практически не в состоянии работать с текстом, выходившим за рамки верхней половины таблицы ASCII. Кириллицу же он и вовсе до 2003 года воспринимал как недопустимые символы. К выпуску 7 версии Adobe кое-что подлатала, но именно кое-что и именно подлатала. И по сей день программа осталась на 8-битном движке, то есть Юникода не поддерживает в принципе и понимает его с огромным трудом. Соответственно, в FM возможно такое, чего не встретишь больше нигде: верстальная программа спотыкается на символах ё, р, ч, э, ю (то есть не именно на этих, а вообще на любых, которые в других кодовых страницах стоят на тех же местах) и даже может их терять при экспорте. К ней невозможно нормально подключить словари от WinSoft (это делается, но вопреки воле создателей и ректально), ни орфографические, ни переносов. Для неё является проблемой импорт кириллических документов Word и даже RTF и запись сложных кириллических документов в PDF… Перечень граблей можно множить и множить. Часть из них лечится плясками с бубном, часть вообще неизлечима и к ним надо просто приспособиться. В общем, программы аналогичного масштаба и назначения, более непригодной для работы именно с документами на русском языке, в природе просто не существует. По этой причине я до сих пор и воздерживаюсь от трудозатрат по её освоению: в этой стране такое имеет смысл только под руководством опытного шамана и в процессе работы за полноценную ставку. В общем, даже если не иметь дела с самим FM и переводить только голый MIF, ещё не факт, что результаты удастся запихать назад (впрочем, русские умельцы наверняка с этим справились бы). Но переводить прямо в нём… безумству храбрых поём мы соответствующую песню. :-))) |
|
link 29.07.2006 21:57 |
Ну, знаете, Brains, все-таки экспериментировать с прогой, которую впервые видишь (тем более с такой), когда за это с учетом locality, где я живу, платят отлично и всего лишь просят сохранить исходное форматирование и все сделать в срок, я не хотел бы. :) За FM беремся вынужденно, ибо сие есть непременное условие заказчика. Конечно, какой-нить человеческий формат был бы лучше, но это не всегда от нас зависит. Версия, в которой работаем - 7.2. Траблов с отображением кириллицы нет. :-)) |
Не заморачивайтесь, берите пиратскую версию файнридера, какие проблемы с этим могут быть в москве? один поход на горбушку вправит вам мозги. честно. каким бы честным вы бы ни были. |
|
link 29.07.2006 22:21 |
оказалось, что все-таки возможность подсчета статистики в FM есть, только что нашел, если кому-нибудь понадобится: File > Utilities > Document Reports... > WordCount... (click on Run...) :-)) |
2 Anton Klimenko…всего лишь просят сохранить исходное форматирование и все сделать в срок…Так вот именно по этой причине я бы сам FM и постарался бы обойти стороной, и затребовал бы от них то же самое в MIF. Как делают все уважающие себя переводчики (пользователей FM вообще можно по пальцам пересчитать, а уж среди переводчиков это совсем уж уникальное явление). Конечно, какой-нить человеческий формат был бы лучше, но это не всегда от нас зависит.Странно: говорю ж Вам — MIF. Версия, в которой работаем - 7.2.Ух ты! Уже 7.2 есть? Я отстал от жизни? Позор джунглям… Траблов с отображением кириллицы нет. :-))Дык с отображением и у 7.0, насколько я знаю, их не было. Интересно, что будет дальше. |
2 Anton Klimenkoоказалось, что все-таки возможность подсчета статистики в FM есть…Хоть что-то человеческое ему не чуждо! :-) |
2 Brains: Я плакаль))) дело в том, что я тоже работаю над этим проЖектом и с удовольствием читала Ваши восторженные отзывы об ФМ. Преклоняюсь перед Вашими знаниями (я - ламер, не побоюсь этого слова), а также спасибо за сочувстие))) П.С. Даже ламер может стать хакером :-) |
2 Lebed…а также спасибо за сочувстие)))Похоже, пока я один представляю возможные масштабы ожидающего Вас веселья. Дай бог, чтобы мои опасения подтвердились лишь частично. Вообще насколько легче живётся человеку, пока он в неведении. ;-))) П.С. Даже ламер может стать хакером :-)Не бывать плешатому кудрявым, не бывать гулящему богатым. Из ламера по определению не получится ничего путного, в том числе и хакера: хакеры получаются из чайников и юзверей. :-) А Вы юзверь, чайник или квадратный чайник? Ламер: Глянь-ка на мой листинг — где у меня ошибка? Хакер: В ДНК! © Устное народное творчество |