DictionaryForumContacts

 Syrira

1 2 all

link 27.02.2010 12:23 
Subject: OFF: Подсчет объема в PDF
Вот возникла непонятная ситуация: предложен на перевод документ в PDF. Я его трансформировала в Word, посчитала объем, сообщила заказчику. Он не согласен, говорит, что считал через FineReader (я не знаю этого способа), и у него получилось меньше. Поскольку объем документа большой, то и разница довольно существенная, а оплата предполагается по входящему объему. В чем тут дело, почему такая разница, кто-нибудь с этим сталкивался?

 eu_br

link 27.02.2010 12:29 
А как Вы трансформировали pdf в word?

 Toropat

link 27.02.2010 12:33 
eu_br is absolutely right. Расскажите подробнее, как вы трансформировали pdf в Word, тогда можно будет разобраться.

Если оригинал не сканированный, а трансформированный, то можно бывает просто выделить всё, вставить в Word и далее обычным порядком посмотреть статистику. Однако иногда в тексте бывают растровые рисунки с надписями, и число символов в них при этом уже учитываться не будет (т.к. для программы это уже не текст, а точечное изображение). То же касается и надписей, вставляемых в документ через панель "Рисование".

ФайнРидер распознает документы оптически (OCR), поэтому подходит и для сканированных документов. Результат опять же предлагается сохранить в офисных приложениях, напр., в том же ворде. Правда, если документ имеет сложное форматирование, схемы, таблицы и пр., или он нечеткий (напр. копия с факса), то часто получается фигня, с которой и работать-то не захочешь.

 Syrira

link 27.02.2010 12:57 
Для конвертирования в Word существует довольно много программ-трансформеров. Можно бесплатно скачать из Интернета, а можно немного потратиться на ABBY PDF Transformer. Результаты конвертирования очень хорошие, но я все-таки не понимаю, за счет чего разница в объеме. Toropat говорит, что в транформированном документе не учитываются надписи в рисунках, но у меня-то наоборот получается объем больше, чем через FineReader.

 standby

link 27.02.2010 13:34 
если заказчик пользуется Finereader'om, так может, он и документ пришлет в текстовом формате?

 gel

link 27.02.2010 13:37 
I. HATE. PDF.
поубивал бы...

 N_N

link 27.02.2010 13:37 
Если заказчик распознавал файнридером с сохранением полного оформления документа, то часть текста могла быть распознана как текстбоксы, которые потом статистикой ворда не учитываются. Посоветуйте ему посчитать другой программой (PractiCount, AnyCount или др.) или сохранить распознанный текст без форматирования и посчитать статистику еще раз.
Кстати, Вас спрашивали, чем именно Вы трансформировали в Word, а не чем вообще можно. Ответ на первый вопрос может прояснить причину расхождения.

 Enote

link 27.02.2010 14:11 
дык вышлите заказчику ваш Вордовский вариант
и попросите у него его Файнридерный
"текстбоксы" учитываются в ВОРД 2007

 Syrira

link 27.02.2010 14:47 
Трансформировала через ABBY PDF Transformer, для проверки пробовала и другие программы, результат одинаковый - все равно при переводе в Word больше, чем в FineReader. Заказчик, естественно, упорно стоит на своем варианте и на мой смотреть не хочет, потому что у него получается меньше и ему так выгодней.
попробуйте в своем тексте поискать двойные пробелы и заменить их на одинарные

 newbe

link 27.02.2010 15:27 
Ну, дык, может тут дело не в PDF>Word vs Word>PDF, может тут сам заказчик хочет (мягко выражаясь грубо говоря) Вас надуть. Я, честно говоря, с такой проблемой не сталкивался, но если машина считает, то придраться не к чему (N_N прав(а), пусть пришлют вам свой экземпляр, тут сразу все видно станет).

 eu_br

link 27.02.2010 15:28 
Попросите заказчика прислать Вам его результат распознавания в FineReader. В ворде сделайте "сравнение документов" - увидите, за счет чего разница. Затем предложите заказчику два варианта: 1) Вы переводите ТОЛЬКО то, что в результате распознавания у Заказчика (очевидно, какая-то информация будет утрачена) по расчетам Заказчика и 2) Вы переводите то, что увидите в PDF, но по своим расчетам.

 Igor Kravchenko-Berezhnoy

link 27.02.2010 15:39 
Syrira

У вас сильно большое расхрождение с заказчиком? Если нет, то я в таких случаях уступаю. Бывает, и картинку-другую за так нарисую. Способствуить.........

 Узер

link 27.02.2010 16:00 
А самим стать заказчиком, кишка тонка?
А с файлом-то как то уж слишком подростково, кто ж затевает такие проекты чтобы попасться на таких глупостях, не ожидал )))))))

 Igor Kravchenko-Berezhnoy

link 27.02.2010 16:09 
Что до распознавалова-версталова, я уже писал еа соседней ветке -- есть классные и недорогие специалисты (у меня есть) . И получите вордовский текст для подсчета.

 Узер

link 27.02.2010 16:15 
Обращение в пустоту. Неужели до сих пор ничего не поняли? (

 Igor Kravchenko-Berezhnoy

link 27.02.2010 16:20 
Почему в пустоту -- самому заказчиком. Проаутсорсить, Вы это имели в виду?

 Igor Kravchenko-Berezhnoy

link 27.02.2010 16:25 
**кто ж затевает такие проекты чтобы попасться на таких глупостях, не ожидал **

Полностью согласен. Аскер, Вам дают серьезный проект --- отнеситесь и Вы сеерьезно и заказчику дайте понять, что он не веники вяжет. Цена, верстка, распознанка.... Это ж не 5 стр

 Узер

link 27.02.2010 16:27 
Опять двадцать пять

 kondorsky

link 27.02.2010 16:42 
gel:
+ 100 million!

 Igor Kravchenko-Berezhnoy

link 27.02.2010 16:48 
Нет, делается нормальная распознанка до хорошего ворда. И с этим уже работаешь. А как иначе? С листа считывать ПДФ? А не жирно ли будет?

 eu_br

link 27.02.2010 16:50 
они ненавидят pdf, посмотрите на них... у меня 90% документов - бумажные... с печатями и подписями, так что OCR отдыхает... сшитые, так что автоподатчик у сканера не поможет... pdf - это счастье...

 Igor Kravchenko-Berezhnoy

link 27.02.2010 17:59 
Они вообще ненавидят электоронику. Ну и что, нам тоже компы забросить и и за пишущие машинки вскм сесть? Надо их постепенно учить, с какого конца у корове подходят))) Вообще корпорации очень архаичны --ну и что, садиться и вырубать наконечники из кремня?

 Toropat

link 27.02.2010 18:19 
А не могла эта разница в числе знаков появиться из-за колонтитулов? Например, если FineReader распознает их и оформляет как колонтитул, то число знаков в этом колонтитуле считается один раз за весь раздел, а PDF Transformer, например, этого не делает, т.е. считает эти знаки на каждой странице как обычный текст. Я просто с этими программами не досконально знаком, работаю с ними только в случае крайней необходимости, обычно проще бывает отформатировать текст самому, особенно если можно обойтись небольшим количеством стилей.

 Codeater

link 27.02.2010 18:21 
В приличных домах принято пэдээфы считать на выходе в ворде и никто обычно не спорит. А вообще, я так думаю, хочешь считать на входе, сканируй файнридером и присылай в ворде, или я сам это сделаю, но посчитаю у себя. Я так думаю. :)

 Igor Kravchenko-Berezhnoy

link 27.02.2010 18:30 
Ребята, я даже не заморачиваюсь -- отдал верстальщику и все дела. Наше дело - перевод.

 Codeater

link 27.02.2010 18:36 
Игорь, на работе и я не заморачиваюсь, просто все посылаются в сад. Но есть еще и другая работа, когда уже нет компании, отдела, коллег, а есть свободное плавание, и ты в нем савсэм адын, да? И некого послать в сад, и все надо делать самому, даже то, что не умеешь. :) Вот и приходится пэдээфы-шмэфы форматировать.

 N_N

link 27.02.2010 18:52 
Поскольку у меня 80% работы приходит именно в ПДФ, то я как раз заморачиваюсь. Ничего особо хитрого или сложного в этом нет. Еще раз: расхождение в статистике может быть вызвано тем, что заказчик распознает в автоматическом режиме и часть текста у него уходит в колонтитулы и текстбоксы. Для подсчета всего этого есть специально обученные программы, которые к тому же можно настроить (PractiCount и аналогичные). Скачайте, посчитайте и сделайте выводы. Если заказчик настаивает на своем, то пусть пришлет свой распознанный вариант - его и переводите.
Согласна с Codeater'ом - если заказ присылают в нередактируемом формате, то считают по переводу в ворде, а не по исходнику. Если заказчик этого не понимает, можно потратить какое-то время на его обучение. Если не обучается - лучше плюнуть и расстаться, так как обычно это не единственная сложность, обычно такая неадекватность сопровождается проблемами с оплатой.

 Igor Kravchenko-Berezhnoy

link 27.02.2010 18:57 
Codeater
Я всё время толкую, что удобно иметь свою команду -- переводчиков, айтишников, верстальщиков, веб-дизайнеров --- и чёрт не брат. Допустим, Вы заболели -- а работа идёт. Makes sense? Это в свободном плавании.

 N_N

link 27.02.2010 19:00 
Еще одна возможная причина - текст сканированный и часть не распознается, а вставляется в ворд картинкой. Естественно, этот текст вордовой статистикой не учитывается. Вариант этот, правда. маловероятный, т.к. ABBYY PDF Transformer - ущербный по функциональности вариант ABBYY Finereader, так что распознавать они должны одинаково (если у заказчика, конечно, не совсем древняя версия).

 N_N

link 27.02.2010 19:02 
Igor Kravchenko-Berezhnoy, это как? Переводчик заболел, а айтишники с верстальщиками переводят, переводят...

 Igor Kravchenko-Berezhnoy

link 27.02.2010 19:09 
Команда переводчиков....... Вы editor-en-chief

 Igor Kravchenko-Berezhnoy

link 27.02.2010 19:11 
Я так работаю с 95 г. - и не умер

 N_N

link 27.02.2010 19:18 
Я сама себе и editor, и translator и пр. Ничего так, тоже жить можно.

 Igor Kravchenko-Berezhnoy

link 27.02.2010 19:26 
А ка Вы сдедаете перевод тысячм на 3 стр. с тучей графики в разумные сроки?

 Igor Kravchenko-Berezhnoy

link 27.02.2010 19:30 
И. допустим, там будут с десяток карт 3х2м с десятками тысяч названий.

 Igor Kravchenko-Berezhnoy

link 27.02.2010 19:32 
Не, я вижу, здесь дело в психологии. Геолог - насекомое общественное (с)

 Codeater

link 27.02.2010 19:34 
Да, Игорь, Вы правы - это хорошая организация дела. Это уже практически фирмА! :)

 Igor Kravchenko-Berezhnoy

link 27.02.2010 19:40 
Codeater,
ФирмА - не фирмА, но так на деле практичнее. Я это сам изобрел и предложил настоящей фирмЕ (геологоразведочной) под большие объемы работы. Так оно и повелось.

 Codeater

link 27.02.2010 19:46 
Дык, а я и без иронии. Я пробовал так работать втроем. Но друзьям не очень нужно было, они потом ушли, а я продолжаю один потихоньку, главным образом, чтоб не расслабляться.

 Igor Kravchenko-Berezhnoy

link 27.02.2010 19:55 
Не, я про иронию и не подумал. На поверку выясняется, что очень многие иак работают -- подбиряют подмастерьев -- и вперед. Это же еще и интересно - учишь, сам наконец учишься)) А главное - веселее в команде. Не знаю, может это и правда от привычки к командной работе в поле.

 Alexander Oshis moderator

link 27.02.2010 20:14 
Игорь,
тут проблема возникает - где взять надёжных коллег?
Один сухорукий сказал по этому поводу: "Кадры решают всё"

 Igor Kravchenko-Berezhnoy

link 27.02.2010 20:34 
Alexander Oshis,

Никогда не было проблемы. На МТ -- присматриваетесь и потом проверяете. Чего человек стоит как переводчик -- проверить никогда нет проблемы. Ну расстатесь, в крайнем случае.

 Toropat

link 28.02.2010 8:58 
Интересно, что мешало заказчику посчитать знаки в тексте оригинала ДО ТОГО, как отдавать его переводчику? Тогда бы уважаемый аскер сразу знал, на что рассчитывать. Некоторые БП так делают, это очень удобно. А еще лучше оплачивать работу по числу знаков перевода, а не оригинала.
Считайте этот вопрос риторическим...

 Syrira

link 28.02.2010 11:12 
Да, конечно, так гораздо лучше переводчику, но поскольку в данном случае перевод с английского на русский, то на выходе будет больше (ввиду большого объема - сильно больше), и заказчик это знает, поэтому и держится за свой вариант подсчета.

 Codeater

link 28.02.2010 12:19 
Заказчик может ничего не знать, особенно, если он не имеет отношения к переводу. По поводу "в русском больше букафф, чем в английском" ... действительно, да русский и технический в т.ч. язык страдает некоторой избыточностью, но если потратить много времени и знать тему, то можно сделать мало букафф. Например, вместо "дебит нефти" в таблице написать Qн. Но на это же время надо. :)

 Toropat

link 28.02.2010 14:43 
А если по существу, сделайте так, как предлагают newbe и eu_br: попросите заказчика прислать вам его распознанный файл и сравните со своим.

 tumanov

link 28.02.2010 15:03 
Если заказчик настаивает на своем, то пусть пришлет свой распознанный вариант - его и переводите.

Поддерживаю коллег.
Заодно время на распознавание сэкономится.

 tumanov

link 28.02.2010 15:28 
Кстати, есть еще один вариант - отсылка заказчику распознанного документа в ворде ПЕРЕД началом его перевода ПЛЮС статистики.

Заказчик сравнивает оригинал с распознанным текстом, после чего либо подтверждает, либо не подтверждает расчет.
Если расчет не подтверждается, то и обсуждение на том заканчивается.

В любом случае некоторый объем работы перед заключением сделки по переводу необходимо провести. Особенно, если перевод большой, и переводчик его получить хочет.

 Igor Kravchenko-Berezhnoy

link 28.02.2010 16:26 
Не всякого заказчика уговоришь распознать текст. Хотя попытка - не пытка.

Некоторые идут на такой резонный вариант - предварительный подсчет делается приблизительно, а уж по факту заказчик платит.

 N_N

link 28.02.2010 18:30 
Еще раз. Медленно.
Если заказ предоставлен в нередактируемом формате (в данном случае PDF), то подсчет ведется по тексту перевода.
Если заказчик хочет считать по оригиналу, то он должен его распознать (что он и сделал, если судить по слову "файнридер" в первом сообщении ветки) и прислать распознанный текст вместе со статистикой.
А если заказчик насчитал n слов (строк, символов, др.) и собирается платить за n слов, а переводчик насчитал n+m слов, то это означает, что m слов он будет переводить бесплатно. Собственно, никто не может ему запретить это сделать.
Возможные причины расхождения в статистике были названы, точнее определить, не имея перед собой текста, не удастся.

 Syrira

link 1.03.2010 7:47 
N_N, спасибо за изящное резюме. Что мне удастся сделать на практике - другой вопрос, но в любом случае приятно встретить человека с четким системным мышлением.

Get short URL | Pages 1 2 all