DictionaryForumContacts

 Jacka

1 2 all

link 28.07.2006 11:13 
Subject: ОФФ: Подсчет количества знаков в большом количестве pdf-файлов
Меня тут попросили оценить заказ, который представляет собой сотню с лишним pdf-файлов разного размера. Не знает ли кто случайно способа, как можно было бы автоматизировать подсчет знаков?
Спасибо

 Natasha_777

link 28.07.2006 11:16 
Пропустить через pdf-transformer.

 10-4

link 28.07.2006 11:17 
Save as text (.txt) file first, then count by Word Statistics

 Aiduza

link 28.07.2006 11:17 
установите Fine Reader, распознайте документ, выведите в формат Word, посчитайте знаки ("Статистика").

 Jacka

link 28.07.2006 11:25 
Уважаемые дамы и господа, это я все понимаю. На то, чтобы сделать сopy-paste в word и воспользоваться функцией "статистика" моих знаний хватает.
Меня просто несколько ломает это делать сто с лишним раз, вот я и спрашиваю, не существует ли _автоматических_ способов.

2 Natasha_777
Роботов-трансформеров знаю, pdf-трансформеров не встречал. Вы имеете в виду конвертеры в Word? Т.е. сделать batch conversion в word, а потом слить документы? Если я Вас понял правильно, подскажите, каким конвертером Вы пользуетесь, а то все, которые я видел, работают кривовато, и запросто могут наделать лишних пробелов, а это весьма нежелательно.

 Тантан

link 28.07.2006 11:28 
есть такая милая программа PractiCount. прогоняешь через нее, и сразу видно сколько слов, сколько знаков, а если заранее цену задать за слово, то и стоимость подсчитает.

 alk

link 28.07.2006 11:31 
Но учтите, важно, чтобы pdf содержал именно текст, где все эти слова и символы находятся. Многие современные pdf'ы это просто сканы бумажных оригиналов, там текст это не текст, а изображение текста.
Без оптического распознавания (finereader) не обойтись.

 Natasha_777

link 28.07.2006 11:36 
Jacka, pdf-transformer - это продукт компании ABBYY, который преобразует пдф в формат ворд / эксэл.
Для этого качество пдф должно быть как минимум средним (с качеством факса, к примеру, куски не прочитает).
Соответственно, Вы можете прогнать через него все документы, а потом посчитать обычной вордовской статистикой.
Демо-версию можно скачать на сайте ABBYY.
Или воспользоваться другими советами, смотря как Вам удобнее :)

 Jacka

link 28.07.2006 11:44 
2 Тантан:
Спасибо, то, что нужно. Классная вещь!
Жалко, что они столько денег за нее дерут, а то купил бы по-честному:)

Еще раз всем спасибо.

 tumanov

link 29.07.2006 11:43 
http://practiline.com/

тут скачать практикаунт.
++++++++++++++++++++++++++++++
а тут anycount. Anycount лучше (и дешевле)

http://www.anycount.com/

 Brains

link 29.07.2006 13:05 
Это я удачно зашёл! Умный вопрос и очень полезный ответ.
Спасибо, tumanov и Jacka!

 Юрок

link 29.07.2006 14:49 
А кто бы еще код для PractiCount выложил, а?

 Brains

link 29.07.2006 15:14 
А купить слабо, брателло?
Ах, поворую – перестану, жду — вот-вот богатым стану,
Вот тогда начну опять я законы соблюдать.

© Михаил Шуфутинский

 Anton Klimenko

link 29.07.2006 17:31 
Интересно, есть ли программа, способная выполнить такой подсчет количества знаков/слов в формате .fm (Adobe FrameMaker)? Актуально для меня сейчас, подскажите, если кто знает. Упомянутые проги по-видимому в этом формате не подсчитывают..

 Brains

link 29.07.2006 18:58 
А он сам разве не умеет? Жаль, у меня он на работе, а сюда ставить влом. Но что мешает перегнать публикацию в любой иной формат и подсчитать текст там?

 Anton Klimenko

link 29.07.2006 19:16 
Сорри, наверное, следовало подробнее описать.. :) Дело в том, что исходник в формате .book и содержит много самых разнородных сегментов (cross-references, PDF файлы, .fm и т.д.), просто так его импортировать весь, как я импортировал бы отдельно взятый .fm я не могу (может, потому, что с этой прогой знаком всего неделю :)) Возможности подсчета статистики не нахожу (опять же, может, не там смотрю)..

 Brains

link 29.07.2006 19:34 
Но как-то Вы собираетесь же извлекать оттуда текст? Или собираетесь прямо там переводить? =:-О
Чтобы так или иначе до текста добраться, файл придётся открыть. Если файл можно открыть, из него запросто извлекается текст посредством элементарнейшего перевода в другой формат. Работа во Фраме с кириллическими документами имеет сродство с шаманизмом, но Вы ж решились? Ну отгоните из него MIF, загрузите в кошку и там считайте себе, сколько влезет (не представляю кошку, которая бы MIF не читала). Или просто в PDF перегоните. Никак проблемы вашей не пойму.
…просто так его импортировать весь, как я импортировал бы отдельно взятый .fm я не могу…
Я даже как Вы им пользоваться не умею (интерфейс у него марсианский почище, чем у Ильи), так что просто не понимаю, о каком импорте речь. Ну book себе и book: как я понимаю, будет Вам недоставать каких-то составляющих всего документа, которые Вы не переводите. Но уж MIF отогнать это вряд ли мешает.

 Anton Klimenko

link 29.07.2006 20:17 
Переводить приходится именно в нем, хотят его получить в исходном виде.. Наверное, изначально можно было бы скопировать в другой документ, но в исходнике - не побоюсь этого слова - кишат маркеры, перекрестные ссылки и всякая другая ... :) Заказчик, кстати, просил, чтобы мы этого не делали (в смысле, не копировали из других редакторов).

Но спасибо за совет: если эти десятка три .fm файлов (входящих в состав 2-х .book-ов) перегнать в PDF, возможно, получится все посчитать. хоть и времени потребует, но возможно.
Насчет интерфейса - это да, согласен полностью.

P.S. Кстати, а что с кириллическими документами? нормально отображаются, если выбрать например Arial CYR.. или я чего-то не понял? Возможно, избежать проблемы со шрифтами помогает опция Remember Missing Font Names.

P.P.S. А что такое MIF?

 Brains

link 29.07.2006 21:09 
2 Anton Klimenko
Переводить приходится именно в нем, хотят его получить в исходном виде.. Наверное, изначально можно было бы скопировать в другой документ, но в исходнике - не побоюсь этого слова - кишат маркеры, перекрестные ссылки и всякая другая ... :) Заказчик, кстати, просил, чтобы мы этого не делали (в смысле, не копировали из других редакторов).
Вообще-то это чистое хамство по отношению к Вам: FrameMaker при всей его гнусности как раз и славен своей способностью к автоматической вёрстке, что позволяет отделить обработку текста от вёрстки и форматирования.
То, чем Вы вознамерились заняться — рабский, Сизифов труд. Любопытно, какой у Вас поправочный коэффициент на такие переводики?
Кстати, а что с кириллическими документами? нормально отображаются, если выбрать например Arial CYR.. или я чего-то не понял? Возможно, избежать проблемы со шрифтами помогает опция Remember Missing Font Names.
P.P.S. А что такое MIF?
Человек, который, взявшись за FM, спрашивает, что такое MIF, вряд ли поймёт ответ (если отвечающий не сподобится написать учебник, который следовало бы читать до начала работы с программой, а не в процессе).
Но Вы даже не видите разницы между выводом документа на дисплей и работой с нимFM до последней версии был практически не в состоянии работать с текстом, выходившим за рамки верхней половины таблицы ASCII. Кириллицу же он и вовсе до 2003 года воспринимал как недопустимые символы. К выпуску 7 версии Adobe кое-что подлатала, но именно кое-что и именно подлатала. И по сей день программа осталась на 8-битном движке, то есть Юникода не поддерживает в принципе и понимает его с огромным трудом. Соответственно, в FM возможно такое, чего не встретишь больше нигде: верстальная программа спотыкается на символах ё, р, ч, э, ю (то есть не именно на этих, а вообще на любых, которые в других кодовых страницах стоят на тех же местах) и даже может их терять при экспорте. К ней невозможно нормально подключить словари от WinSoft (это делается, но вопреки воле создателей и ректально), ни орфографические, ни переносов. Для неё является проблемой импорт кириллических документов Word и даже RTF и запись сложных кириллических документов в PDF
Перечень граблей можно множить и множить. Часть из них лечится плясками с бубном, часть вообще неизлечима и к ним надо просто приспособиться. В общем, программы аналогичного масштаба и назначения, более непригодной для работы именно с документами на русском языке, в природе просто не существует. По этой причине я до сих пор и воздерживаюсь от трудозатрат по её освоению: в этой стране такое имеет смысл только под руководством опытного шамана и в процессе работы за полноценную ставку.
В общем, даже если не иметь дела с самим FM и переводить только голый MIF, ещё не факт, что результаты удастся запихать назад (впрочем, русские умельцы наверняка с этим справились бы). Но переводить прямо в нём… безумству храбрых поём мы соответствующую песню. :-)))

 Anton Klimenko

link 29.07.2006 21:57 
Ну, знаете, Brains, все-таки экспериментировать с прогой, которую впервые видишь (тем более с такой), когда за это с учетом locality, где я живу, платят отлично и всего лишь просят сохранить исходное форматирование и все сделать в срок, я не хотел бы. :)
За FM беремся вынужденно, ибо сие есть непременное условие заказчика. Конечно, какой-нить человеческий формат был бы лучше, но это не всегда от нас зависит.
Версия, в которой работаем - 7.2. Траблов с отображением кириллицы нет. :-))

 Aiduza

link 29.07.2006 22:04 
Не заморачивайтесь, берите пиратскую версию файнридера, какие проблемы с этим могут быть в москве? один поход на горбушку вправит вам мозги. честно. каким бы честным вы бы ни были.

 Anton Klimenko

link 29.07.2006 22:21 
оказалось, что все-таки возможность подсчета статистики в FM есть, только что нашел, если кому-нибудь понадобится:

File > Utilities > Document Reports... > WordCount... (click on Run...)

:-))

 Brains

link 29.07.2006 23:10 
2 Anton Klimenko
…всего лишь просят сохранить исходное форматирование и все сделать в срок…
Так вот именно по этой причине я бы сам FM и постарался бы обойти стороной, и затребовал бы от них то же самое в MIF. Как делают все уважающие себя переводчики (пользователей FM вообще можно по пальцам пересчитать, а уж среди переводчиков это совсем уж уникальное явление).
Конечно, какой-нить человеческий формат был бы лучше, но это не всегда от нас зависит.
Странно: говорю ж Вам — MIF.
Версия, в которой работаем - 7.2.
Ух ты! Уже 7.2 есть? Я отстал от жизни? Позор джунглям…
Траблов с отображением кириллицы нет. :-))
Дык с отображением и у 7.0, насколько я знаю, их не было.
Интересно, что будет дальше.

 Brains

link 29.07.2006 23:13 
2 Anton Klimenko
оказалось, что все-таки возможность подсчета статистики в FM есть…
Хоть что-то человеческое ему не чуждо! :-)

 Lebed

link 29.07.2006 23:39 
2 Brains:
Я плакаль))) дело в том, что я тоже работаю над этим проЖектом и с удовольствием читала Ваши восторженные отзывы об ФМ.
Преклоняюсь перед Вашими знаниями (я - ламер, не побоюсь этого слова), а также спасибо за сочувстие)))
П.С. Даже ламер может стать хакером :-)

 Brains

link 30.07.2006 2:27 
2 Lebed
…а также спасибо за сочувстие)))
Похоже, пока я один представляю возможные масштабы ожидающего Вас веселья. Дай бог, чтобы мои опасения подтвердились лишь частично. Вообще насколько легче живётся человеку, пока он в неведении. ;-)))
П.С. Даже ламер может стать хакером :-)
Не бывать плешатому кудрявым, не бывать гулящему богатым. Из ламера по определению не получится ничего путного, в том числе и хакера: хакеры получаются из чайников и юзверей. :-)
А Вы юзверь, чайник или квадратный чайник?
Ламер: Глянь-ка на мой листинг — где у меня ошибка?
Хакер: В ДНК!

© Устное народное творчество

Get short URL | Photo | Pages 1 2 all