DictionaryForumContacts

 Jacka

link 28.07.2006 11:13 
Subject: ОФФ: Подсчет количества знаков в большом количестве pdf-файлов
Меня тут попросили оценить заказ, который представляет собой сотню с лишним pdf-файлов разного размера. Не знает ли кто случайно способа, как можно было бы автоматизировать подсчет знаков?
Спасибо

 Natasha_777

link 28.07.2006 11:16 
Пропустить через pdf-transformer.

 10-4

link 28.07.2006 11:17 
Save as text (.txt) file first, then count by Word Statistics

 Aiduza

link 28.07.2006 11:17 
установите Fine Reader, распознайте документ, выведите в формат Word, посчитайте знаки ("Статистика").

 Jacka

link 28.07.2006 11:25 
Уважаемые дамы и господа, это я все понимаю. На то, чтобы сделать сopy-paste в word и воспользоваться функцией "статистика" моих знаний хватает.
Меня просто несколько ломает это делать сто с лишним раз, вот я и спрашиваю, не существует ли _автоматических_ способов.

2 Natasha_777
Роботов-трансформеров знаю, pdf-трансформеров не встречал. Вы имеете в виду конвертеры в Word? Т.е. сделать batch conversion в word, а потом слить документы? Если я Вас понял правильно, подскажите, каким конвертером Вы пользуетесь, а то все, которые я видел, работают кривовато, и запросто могут наделать лишних пробелов, а это весьма нежелательно.

 Тантан

link 28.07.2006 11:28 
есть такая милая программа PractiCount. прогоняешь через нее, и сразу видно сколько слов, сколько знаков, а если заранее цену задать за слово, то и стоимость подсчитает.

 alk moderator

link 28.07.2006 11:31 
Но учтите, важно, чтобы pdf содержал именно текст, где все эти слова и символы находятся. Многие современные pdf'ы это просто сканы бумажных оригиналов, там текст это не текст, а изображение текста.
Без оптического распознавания (finereader) не обойтись.

 Natasha_777

link 28.07.2006 11:36 
Jacka, pdf-transformer - это продукт компании ABBYY, который преобразует пдф в формат ворд / эксэл.
Для этого качество пдф должно быть как минимум средним (с качеством факса, к примеру, куски не прочитает).
Соответственно, Вы можете прогнать через него все документы, а потом посчитать обычной вордовской статистикой.
Демо-версию можно скачать на сайте ABBYY.
Или воспользоваться другими советами, смотря как Вам удобнее :)

 Jacka

link 28.07.2006 11:44 
2 Тантан:
Спасибо, то, что нужно. Классная вещь!
Жалко, что они столько денег за нее дерут, а то купил бы по-честному:)

Еще раз всем спасибо.

 tumanov

link 29.07.2006 11:43 
http://practiline.com/

тут скачать практикаунт.
++++++++++++++++++++++++++++++
а тут anycount. Anycount лучше (и дешевле)

http://www.anycount.com/

 Brains

link 29.07.2006 13:05 
Это я удачно зашёл! Умный вопрос и очень полезный ответ.
Спасибо, tumanov и Jacka!

 Юрок

link 29.07.2006 14:49 
А кто бы еще код для PractiCount выложил, а?

 Brains

link 29.07.2006 15:14 
А купить слабо, брателло?
Ах, поворую – перестану, жду — вот-вот богатым стану,
Вот тогда начну опять я законы соблюдать.

© Михаил Шуфутинский

 Anton Klimenko

link 29.07.2006 17:31 
Интересно, есть ли программа, способная выполнить такой подсчет количества знаков/слов в формате .fm (Adobe FrameMaker)? Актуально для меня сейчас, подскажите, если кто знает. Упомянутые проги по-видимому в этом формате не подсчитывают..

 Brains

link 29.07.2006 18:58 
А он сам разве не умеет? Жаль, у меня он на работе, а сюда ставить влом. Но что мешает перегнать публикацию в любой иной формат и подсчитать текст там?

 Anton Klimenko

link 29.07.2006 19:16 
Сорри, наверное, следовало подробнее описать.. :) Дело в том, что исходник в формате .book и содержит много самых разнородных сегментов (cross-references, PDF файлы, .fm и т.д.), просто так его импортировать весь, как я импортировал бы отдельно взятый .fm я не могу (может, потому, что с этой прогой знаком всего неделю :)) Возможности подсчета статистики не нахожу (опять же, может, не там смотрю)..

 Brains

link 29.07.2006 19:34 
Но как-то Вы собираетесь же извлекать оттуда текст? Или собираетесь прямо там переводить? =:-О
Чтобы так или иначе до текста добраться, файл придётся открыть. Если файл можно открыть, из него запросто извлекается текст посредством элементарнейшего перевода в другой формат. Работа во Фраме с кириллическими документами имеет сродство с шаманизмом, но Вы ж решились? Ну отгоните из него MIF, загрузите в кошку и там считайте себе, сколько влезет (не представляю кошку, которая бы MIF не читала). Или просто в PDF перегоните. Никак проблемы вашей не пойму.
…просто так его импортировать весь, как я импортировал бы отдельно взятый .fm я не могу…
Я даже как Вы им пользоваться не умею (интерфейс у него марсианский почище, чем у Ильи), так что просто не понимаю, о каком импорте речь. Ну book себе и book: как я понимаю, будет Вам недоставать каких-то составляющих всего документа, которые Вы не переводите. Но уж MIF отогнать это вряд ли мешает.

 Anton Klimenko

link 29.07.2006 20:17 
Переводить приходится именно в нем, хотят его получить в исходном виде.. Наверное, изначально можно было бы скопировать в другой документ, но в исходнике - не побоюсь этого слова - кишат маркеры, перекрестные ссылки и всякая другая ... :) Заказчик, кстати, просил, чтобы мы этого не делали (в смысле, не копировали из других редакторов).

Но спасибо за совет: если эти десятка три .fm файлов (входящих в состав 2-х .book-ов) перегнать в PDF, возможно, получится все посчитать. хоть и времени потребует, но возможно.
Насчет интерфейса - это да, согласен полностью.

P.S. Кстати, а что с кириллическими документами? нормально отображаются, если выбрать например Arial CYR.. или я чего-то не понял? Возможно, избежать проблемы со шрифтами помогает опция Remember Missing Font Names.

P.P.S. А что такое MIF?

 Brains

link 29.07.2006 21:09 
2 Anton Klimenko
Переводить приходится именно в нем, хотят его получить в исходном виде.. Наверное, изначально можно было бы скопировать в другой документ, но в исходнике - не побоюсь этого слова - кишат маркеры, перекрестные ссылки и всякая другая ... :) Заказчик, кстати, просил, чтобы мы этого не делали (в смысле, не копировали из других редакторов).
Вообще-то это чистое хамство по отношению к Вам: FrameMaker при всей его гнусности как раз и славен своей способностью к автоматической вёрстке, что позволяет отделить обработку текста от вёрстки и форматирования.
То, чем Вы вознамерились заняться — рабский, Сизифов труд. Любопытно, какой у Вас поправочный коэффициент на такие переводики?
Кстати, а что с кириллическими документами? нормально отображаются, если выбрать например Arial CYR.. или я чего-то не понял? Возможно, избежать проблемы со шрифтами помогает опция Remember Missing Font Names.
P.P.S. А что такое MIF?
Человек, который, взявшись за FM, спрашивает, что такое MIF, вряд ли поймёт ответ (если отвечающий не сподобится написать учебник, который следовало бы читать до начала работы с программой, а не в процессе).
Но Вы даже не видите разницы между выводом документа на дисплей и работой с нимFM до последней версии был практически не в состоянии работать с текстом, выходившим за рамки верхней половины таблицы ASCII. Кириллицу же он и вовсе до 2003 года воспринимал как недопустимые символы. К выпуску 7 версии Adobe кое-что подлатала, но именно кое-что и именно подлатала. И по сей день программа осталась на 8-битном движке, то есть Юникода не поддерживает в принципе и понимает его с огромным трудом. Соответственно, в FM возможно такое, чего не встретишь больше нигде: верстальная программа спотыкается на символах ё, р, ч, э, ю (то есть не именно на этих, а вообще на любых, которые в других кодовых страницах стоят на тех же местах) и даже может их терять при экспорте. К ней невозможно нормально подключить словари от WinSoft (это делается, но вопреки воле создателей и ректально), ни орфографические, ни переносов. Для неё является проблемой импорт кириллических документов Word и даже RTF и запись сложных кириллических документов в PDF
Перечень граблей можно множить и множить. Часть из них лечится плясками с бубном, часть вообще неизлечима и к ним надо просто приспособиться. В общем, программы аналогичного масштаба и назначения, более непригодной для работы именно с документами на русском языке, в природе просто не существует. По этой причине я до сих пор и воздерживаюсь от трудозатрат по её освоению: в этой стране такое имеет смысл только под руководством опытного шамана и в процессе работы за полноценную ставку.
В общем, даже если не иметь дела с самим FM и переводить только голый MIF, ещё не факт, что результаты удастся запихать назад (впрочем, русские умельцы наверняка с этим справились бы). Но переводить прямо в нём… безумству храбрых поём мы соответствующую песню. :-)))

 Anton Klimenko

link 29.07.2006 21:57 
Ну, знаете, Brains, все-таки экспериментировать с прогой, которую впервые видишь (тем более с такой), когда за это с учетом locality, где я живу, платят отлично и всего лишь просят сохранить исходное форматирование и все сделать в срок, я не хотел бы. :)
За FM беремся вынужденно, ибо сие есть непременное условие заказчика. Конечно, какой-нить человеческий формат был бы лучше, но это не всегда от нас зависит.
Версия, в которой работаем - 7.2. Траблов с отображением кириллицы нет. :-))

 Aiduza

link 29.07.2006 22:04 
Не заморачивайтесь, берите пиратскую версию файнридера, какие проблемы с этим могут быть в москве? один поход на горбушку вправит вам мозги. честно. каким бы честным вы бы ни были.

 Anton Klimenko

link 29.07.2006 22:21 
оказалось, что все-таки возможность подсчета статистики в FM есть, только что нашел, если кому-нибудь понадобится:

File > Utilities > Document Reports... > WordCount... (click on Run...)

:-))

 Brains

link 29.07.2006 23:10 
2 Anton Klimenko
…всего лишь просят сохранить исходное форматирование и все сделать в срок…
Так вот именно по этой причине я бы сам FM и постарался бы обойти стороной, и затребовал бы от них то же самое в MIF. Как делают все уважающие себя переводчики (пользователей FM вообще можно по пальцам пересчитать, а уж среди переводчиков это совсем уж уникальное явление).
Конечно, какой-нить человеческий формат был бы лучше, но это не всегда от нас зависит.
Странно: говорю ж Вам — MIF.
Версия, в которой работаем - 7.2.
Ух ты! Уже 7.2 есть? Я отстал от жизни? Позор джунглям…
Траблов с отображением кириллицы нет. :-))
Дык с отображением и у 7.0, насколько я знаю, их не было.
Интересно, что будет дальше.

 Brains

link 29.07.2006 23:13 
2 Anton Klimenko
оказалось, что все-таки возможность подсчета статистики в FM есть…
Хоть что-то человеческое ему не чуждо! :-)

 Lebed

link 29.07.2006 23:39 
2 Brains:
Я плакаль))) дело в том, что я тоже работаю над этим проЖектом и с удовольствием читала Ваши восторженные отзывы об ФМ.
Преклоняюсь перед Вашими знаниями (я - ламер, не побоюсь этого слова), а также спасибо за сочувстие)))
П.С. Даже ламер может стать хакером :-)

 Brains

link 30.07.2006 2:27 
2 Lebed
…а также спасибо за сочувстие)))
Похоже, пока я один представляю возможные масштабы ожидающего Вас веселья. Дай бог, чтобы мои опасения подтвердились лишь частично. Вообще насколько легче живётся человеку, пока он в неведении. ;-)))
П.С. Даже ламер может стать хакером :-)
Не бывать плешатому кудрявым, не бывать гулящему богатым. Из ламера по определению не получится ничего путного, в том числе и хакера: хакеры получаются из чайников и юзверей. :-)
А Вы юзверь, чайник или квадратный чайник?
Ламер: Глянь-ка на мой листинг — где у меня ошибка?
Хакер: В ДНК!

© Устное народное творчество

 Lebed

link 30.07.2006 11:08 
ДВА МОЗГА:
quote
Вообще насколько легче живётся человеку, пока он в неведении. ;-)))
unquote
Из собственного опыта: если не заморачиваться на сложностях, а находиться в блаженном неведении относительно их существования, сложностей можно просто не заметить :-)
quote
Не бывать плешатому кудрявым, не бывать гулящему богатым
unquote
Надежда умирает последней :-)
Re: анекдот
Кстати, мой любимый :-)
Самокритика нам не чужда :-)

 Brains

link 30.07.2006 11:21 
2 Lebed
А самокритика тут при чём? Я просто интересовался степенью Вашего блаженного неведения. ;-)
Не владеть FM — норма жизни; я сам им не владею. Прога, как я писал, уникальная, но зело партикулярная, узкоспециализированная и с огромным количеством позорных наследственных болячек.

 Enote

link 30.07.2006 13:45 
Чего это народ на FM взъелся? Я в нём давно (лет 10) работаю. Незнание им 5 русских букв никаких проблем не создаёт. Кривизна проявляется только при выводе закладок в ПДФ - обычно приходится всё править руками. Большой плюс - в отличии от MS Word удивительно устойчивая программа. Если его все же удасться завалить, то падает он очень аккуратно, создает рикавери файл.

 Lebed

link 30.07.2006 14:16 
Так-с, коллеги, это все лирика, «хороший/плохой», а объясните мне, други мои, следующее:
Статистику мы узнали, где считать, в ютилитис, НО:
Предыстория:
ФМ файл, в котором мы непосредственно переводим, состоит из книги (свода 20 ФМ файлов), папки с графикой и текстовой папки.
Некоторые куски присланных для перевода фм файлов, входящих в состав бук, уже переведены на русский.
При подсчете статистики заказчик прислал нам эксел файл, состоящий из двух столбцов:
Первый столбец: отдельно фм файлы с ворд каунтом
Второй столбец: сабсидиари (текст) файлы с так называемым русским ворд каунтом.
Внимание, вопрос: КАК (каким образом, how, wie, etc) он ПОСЧИТАЛ русскую статистику из текстовых папок?
После этой «инсинуации» он еще умудрился умножить русский каунт на некий коэффициент: NOTE : The correction factor of 1.06 was determined following our study of an English to Russian translation of 33,272 words.
То есть увеличил количество русских слов на 1,06, после чего от английского каута отнял русский (с учетом этого коэффициента).
Спасибо за ответы (если они будут) 
П.С. Толи лыжи не едут… толи… на этом мысль останавливается (с)

 Brains

link 30.07.2006 15:19 
2 Lebed
После этой «инсинуации» он еще умудрился умножить русский каунт на некий коэффициент: NOTE : The correction factor of 1.06 was determined following our study of an English to Russian translation of 33,272 words.
То есть увеличил количество русских слов на 1,06, после чего от английского каута отнял русский (с учетом этого коэффициента).
Однако ж и сложны Вы для понимания! Лучше б просто целиком привели его письмо. Впрочем, насколько я в теме, могу проэкстраполировать, что враги (что-то не помню, чтобы Вы указали их госпринадлежность) пересчитали единицу измерения гонорара со своей в доступную Вам. Себя при этом они точно не обидели.
В Великобритании и США, например, гонорар принято считать, исходя из объёма оригинала, выраженного в словах. До появления компьютеров это была величина точная. Сейчас словом считается чаще просто серия символов, ограничиваемая с обеих сторон пробелами или управляющими метасимволами.
В Восточной Европе и странах бывшего СССР до сих пор большей частью сохраняется куда более точная и однозначная система подсчёта в условных машинописных страницах. Но до неё Ваш заказчик не унизился.
При этом он позаботился показать, что не считает Вас полным лохом и учитывает, что русский текст всегда несколько длинее английского. То есть он знает (по опыту, наверное), что на оплату по словам в исходном тексте уважающие себя переводчики в России не соглашаются без поправочных коэффициентов. И потому его слова следует понимать так:
Поправочный коэффициент 1,06 выведен на основе анализа имеющихся переводов с английского на русский (общий объём 33.272,0 слов).
По-мне, так враки. Аналогичный анализ я провёл, как только переключился на переводческую деятельность. Привожу двухлетней давности запись результатов в своей собственной базе знаний:
Точный замер исходного текста инструкции к гарнитуре Bluetooth в сравнении с переводом дал:
• исходный объём — 25350 символов
• перевод — 34937 символов
.
То есть перевод на русский для данного случая превышает исходный текст по объёму в 1,3781854043392504930966469428008 раза.

 Enote

link 30.07.2006 15:55 
1,38 - большая величина, у меня обычно 1,15
статистика текстовых файлов (*.txt) определяется программой MS Word (знаете такую?)
То есть увеличил количество русских слов на 1,06, после чего от английского каута отнял русский (с учетом этого коэффициента). - всё не так, читайте Brains, объем русского текста, как правило, больше английского в этот самый коэф., то есть они оценивают объем перевода по исходнику.

 Lebed

link 30.07.2006 16:00 
Спасибо, Бреинс.
Но Вы не совсем правильно поняли, в какую сторону пляшет заказчик. А пляшет он именно в сторону своего кармана))
Не хочу пудрить Вам МОЗГИ (милый каламбур), но все же объясню:
Так как перевод с анг на русский, но часть уже переведена на русский, он вычитает уже переведенные русские слова.
Наши (для перевода) английские слова минус уже сделанные ими русские, умноженные на коэффициент. То есть он выводит сумму: анг минус – (сделанный русский с учетом этого K). Таким образом, он УМЕНЬШАЕТ итоговую сумму анг к оплате.
Шизуха косит наши ряды.
А еще я спрашивала, как можно рассчитать кол-во уже находящихся оригинально в текстовой папке русских слов.
Thanks for your patience))

 Lebed

link 30.07.2006 16:07 
2 Енот
quote
1,38 - большая величина, у меня обычно 1,15
статистика текстовых файлов (*.txt) определяется программой MS Word (знаете такую?)
То есть увеличил количество русских слов на 1,06, после чего от английского каута отнял русский (с учетом этого коэффициента). - всё не так, читайте Brains, объем русского текста, как правило, больше английского в этот самый коэф., то есть они оценивают объем перевода по исходнику.
unquote
тАварисчи, я не первый год замужем))
И что такое MS word, а также как отличаются объем текста оригинала и перевода я имею очень четкое представление.
Возможно я недостаточно корректно задала вопрос, в этом случае прошу простить))А вообще Вы оба неправильно поняли вопрос))С точностью до наоборот))

 Lebed

link 30.07.2006 16:17 
2 Енот:
А вообще-то странно, что Вы, работая 10 лет с ФМ, не знаете, что папка TEXT содержит не текстовые файлы (.txt), а файлы опять же ФМ-овские.
Бест регардс))

 Brains

link 30.07.2006 21:21 
2 Lebed
А пляшет он именно в сторону своего кармана))
Так и я его в том же подозревал.
Шизуха косит наши ряды.
Это точно. Кажется, Вы понимаете его неэвклидову геометрию лучше меня. =:-О
А еще я спрашивала, как можно рассчитать кол-во уже находящихся оригинально в текстовой папке русских слов.
Боюсь, это проще у них спросить. Возможно, что они уже располагали готовой статистикой: ведь за эту работу уже кому-то платили и как-то гонорар считали.

 Brains

link 30.07.2006 21:24 
2 Lebed
А вообще Вы оба неправильно поняли вопрос))С точностью до наоборот))
Ну это тоже о чём-то говорит, не находите? :-)))))))))))
— Вас, Петровых, не поймёшь!
© Устное народное творчество

 Lebed

link 30.07.2006 22:43 
ДВУМ МИЛЫМ МОЗГАМ ))

УРРРААА!!!!!!!!! Заррррработала (с)

Все-таки, Бреинс, ДНК тут не причем, тьфу, тьфу)) и мой красный диплом экономиста даром не пропал))

После Вашей недвусмысленной реплики о Петровых (с) постараюсь изъясняться максимально удобоваримо:

Был файл со статистикой, составленный заказчиком (в экселе).

Мы переводим в проге FrameMaker. Некоторые .fm файлы уже переведены на русский.

Как я уже говорила, сама книга (сводные файлы) состоит из множества .fm файлов. Кроме того, существует некая папка TEXT, которая содержит все файлы, идущие в .fm файлах в качестве inserted text. То есть мы делаем перевод непосредственно в этих файлах при наличии этого inserted text. Но, кроме этого, в этой папке есть все сделанные ранее русские переводы.

Как считать статистику в AF Anton уже писал. Я проверила всю (!!!) статистку (каждого фм файла в отдельности), а также русских файлов, расположенных в папке Text.

Их логика вполне ясна: считается статистика целых файлов .fm (туда входят анг и русские слова), потом считается статистика готовых русских файлов, находящихся в папке Text.

Потом, следовательно, статистика целых файлов минус статистика русских файлов из папки TEXT дает голую английскую статистику.

НО..

Ребята учли, что русская статистика всегда больше английской, и применили коэффициент.

Obviously (joke), та статистика, которая была для общего файла (включающего анг и русский) была ими занижена, и наоборот, та, что с русским текстом (который уже переведен ими) завышена (ну, чтоб больше отнять при окончательном подсчете).

Так ..все.. теряю мысли.. пошла спатьььььь…

 Brains

link 30.07.2006 23:06 
2 Lebed
Все-таки, Бреинс, ДНК тут не причем, тьфу, тьфу)) и мой красный диплом экономиста даром не пропал))
В уме ли Вы?! Про ДНК это вообще никак не к Вам было, просто анекдот смеху ради. Окститесь!
Я проверила всю (!!!) статистку (каждого фм файла в отдельности), а также русских файлов, расположенных в папке Text.
Ужос! Ещё и в воскресенье… У Вас какая ставка за сверхурочные?
Obviously (joke), та статистика, которая была для общего файла (включающего анг и русский) была ими занижена, и наоборот, та, что с русским текстом (который уже переведен ими) завышена (ну, чтоб больше отнять при окончательном подсчете).
Господи, до чего люди себя доводят… Их хоть бы кто ткнул меня в это носом в своё время! Теперь я это вижу, да поздно уже, не тот завод… ;-((((

 

You need to be logged in to post in the forum