Subject: OFF: Подсчет объема в PDF Вот возникла непонятная ситуация: предложен на перевод документ в PDF. Я его трансформировала в Word, посчитала объем, сообщила заказчику. Он не согласен, говорит, что считал через FineReader (я не знаю этого способа), и у него получилось меньше. Поскольку объем документа большой, то и разница довольно существенная, а оплата предполагается по входящему объему. В чем тут дело, почему такая разница, кто-нибудь с этим сталкивался?
|
А как Вы трансформировали pdf в word? |
eu_br is absolutely right. Расскажите подробнее, как вы трансформировали pdf в Word, тогда можно будет разобраться. Если оригинал не сканированный, а трансформированный, то можно бывает просто выделить всё, вставить в Word и далее обычным порядком посмотреть статистику. Однако иногда в тексте бывают растровые рисунки с надписями, и число символов в них при этом уже учитываться не будет (т.к. для программы это уже не текст, а точечное изображение). То же касается и надписей, вставляемых в документ через панель "Рисование". ФайнРидер распознает документы оптически (OCR), поэтому подходит и для сканированных документов. Результат опять же предлагается сохранить в офисных приложениях, напр., в том же ворде. Правда, если документ имеет сложное форматирование, схемы, таблицы и пр., или он нечеткий (напр. копия с факса), то часто получается фигня, с которой и работать-то не захочешь. |
Для конвертирования в Word существует довольно много программ-трансформеров. Можно бесплатно скачать из Интернета, а можно немного потратиться на ABBY PDF Transformer. Результаты конвертирования очень хорошие, но я все-таки не понимаю, за счет чего разница в объеме. Toropat говорит, что в транформированном документе не учитываются надписи в рисунках, но у меня-то наоборот получается объем больше, чем через FineReader. |
если заказчик пользуется Finereader'om, так может, он и документ пришлет в текстовом формате? |
I. HATE. PDF. поубивал бы... |
Если заказчик распознавал файнридером с сохранением полного оформления документа, то часть текста могла быть распознана как текстбоксы, которые потом статистикой ворда не учитываются. Посоветуйте ему посчитать другой программой (PractiCount, AnyCount или др.) или сохранить распознанный текст без форматирования и посчитать статистику еще раз. Кстати, Вас спрашивали, чем именно Вы трансформировали в Word, а не чем вообще можно. Ответ на первый вопрос может прояснить причину расхождения. |
дык вышлите заказчику ваш Вордовский вариант и попросите у него его Файнридерный |
|
link 27.02.2010 14:23 |
"текстбоксы" учитываются в ВОРД 2007 |
Трансформировала через ABBY PDF Transformer, для проверки пробовала и другие программы, результат одинаковый - все равно при переводе в Word больше, чем в FineReader. Заказчик, естественно, упорно стоит на своем варианте и на мой смотреть не хочет, потому что у него получается меньше и ему так выгодней. |
|
link 27.02.2010 14:52 |
попробуйте в своем тексте поискать двойные пробелы и заменить их на одинарные |
Ну, дык, может тут дело не в PDF>Word vs Word>PDF, может тут сам заказчик хочет (мягко выражаясь грубо говоря) Вас надуть. Я, честно говоря, с такой проблемой не сталкивался, но если машина считает, то придраться не к чему (N_N прав(а), пусть пришлют вам свой экземпляр, тут сразу все видно станет). |
Попросите заказчика прислать Вам его результат распознавания в FineReader. В ворде сделайте "сравнение документов" - увидите, за счет чего разница. Затем предложите заказчику два варианта: 1) Вы переводите ТОЛЬКО то, что в результате распознавания у Заказчика (очевидно, какая-то информация будет утрачена) по расчетам Заказчика и 2) Вы переводите то, что увидите в PDF, но по своим расчетам. |
|
link 27.02.2010 15:39 |
Syrira У вас сильно большое расхрождение с заказчиком? Если нет, то я в таких случаях уступаю. Бывает, и картинку-другую за так нарисую. Способствуить......... |
А самим стать заказчиком, кишка тонка? А с файлом-то как то уж слишком подростково, кто ж затевает такие проекты чтобы попасться на таких глупостях, не ожидал ))))))) |
|
link 27.02.2010 16:09 |
Что до распознавалова-версталова, я уже писал еа соседней ветке -- есть классные и недорогие специалисты (у меня есть) . И получите вордовский текст для подсчета. |
Обращение в пустоту. Неужели до сих пор ничего не поняли? ( |
|
link 27.02.2010 16:20 |
Почему в пустоту -- самому заказчиком. Проаутсорсить, Вы это имели в виду? |
|
link 27.02.2010 16:25 |
**кто ж затевает такие проекты чтобы попасться на таких глупостях, не ожидал ** Полностью согласен. Аскер, Вам дают серьезный проект --- отнеситесь и Вы сеерьезно и заказчику дайте понять, что он не веники вяжет. Цена, верстка, распознанка.... Это ж не 5 стр |
Опять двадцать пять |
gel: + 100 million! |
|
link 27.02.2010 16:48 |
Нет, делается нормальная распознанка до хорошего ворда. И с этим уже работаешь. А как иначе? С листа считывать ПДФ? А не жирно ли будет? |
они ненавидят pdf, посмотрите на них... у меня 90% документов - бумажные... с печатями и подписями, так что OCR отдыхает... сшитые, так что автоподатчик у сканера не поможет... pdf - это счастье... |
|
link 27.02.2010 17:59 |
Они вообще ненавидят электоронику. Ну и что, нам тоже компы забросить и и за пишущие машинки вскм сесть? Надо их постепенно учить, с какого конца у корове подходят))) Вообще корпорации очень архаичны --ну и что, садиться и вырубать наконечники из кремня? |
А не могла эта разница в числе знаков появиться из-за колонтитулов? Например, если FineReader распознает их и оформляет как колонтитул, то число знаков в этом колонтитуле считается один раз за весь раздел, а PDF Transformer, например, этого не делает, т.е. считает эти знаки на каждой странице как обычный текст. Я просто с этими программами не досконально знаком, работаю с ними только в случае крайней необходимости, обычно проще бывает отформатировать текст самому, особенно если можно обойтись небольшим количеством стилей. |
В приличных домах принято пэдээфы считать на выходе в ворде и никто обычно не спорит. А вообще, я так думаю, хочешь считать на входе, сканируй файнридером и присылай в ворде, или я сам это сделаю, но посчитаю у себя. Я так думаю. :) |
|
link 27.02.2010 18:30 |
Ребята, я даже не заморачиваюсь -- отдал верстальщику и все дела. Наше дело - перевод. |
Игорь, на работе и я не заморачиваюсь, просто все посылаются в сад. Но есть еще и другая работа, когда уже нет компании, отдела, коллег, а есть свободное плавание, и ты в нем савсэм адын, да? И некого послать в сад, и все надо делать самому, даже то, что не умеешь. :) Вот и приходится пэдээфы-шмэфы форматировать. |
Поскольку у меня 80% работы приходит именно в ПДФ, то я как раз заморачиваюсь. Ничего особо хитрого или сложного в этом нет. Еще раз: расхождение в статистике может быть вызвано тем, что заказчик распознает в автоматическом режиме и часть текста у него уходит в колонтитулы и текстбоксы. Для подсчета всего этого есть специально обученные программы, которые к тому же можно настроить (PractiCount и аналогичные). Скачайте, посчитайте и сделайте выводы. Если заказчик настаивает на своем, то пусть пришлет свой распознанный вариант - его и переводите. Согласна с Codeater'ом - если заказ присылают в нередактируемом формате, то считают по переводу в ворде, а не по исходнику. Если заказчик этого не понимает, можно потратить какое-то время на его обучение. Если не обучается - лучше плюнуть и расстаться, так как обычно это не единственная сложность, обычно такая неадекватность сопровождается проблемами с оплатой. |
|
link 27.02.2010 18:57 |
Codeater Я всё время толкую, что удобно иметь свою команду -- переводчиков, айтишников, верстальщиков, веб-дизайнеров --- и чёрт не брат. Допустим, Вы заболели -- а работа идёт. Makes sense? Это в свободном плавании. |
Еще одна возможная причина - текст сканированный и часть не распознается, а вставляется в ворд картинкой. Естественно, этот текст вордовой статистикой не учитывается. Вариант этот, правда. маловероятный, т.к. ABBYY PDF Transformer - ущербный по функциональности вариант ABBYY Finereader, так что распознавать они должны одинаково (если у заказчика, конечно, не совсем древняя версия). |
Igor Kravchenko-Berezhnoy, это как? Переводчик заболел, а айтишники с верстальщиками переводят, переводят... |
|
link 27.02.2010 19:09 |
Команда переводчиков....... Вы editor-en-chief |
|
link 27.02.2010 19:11 |
Я так работаю с 95 г. - и не умер |
Я сама себе и editor, и translator и пр. Ничего так, тоже жить можно. |
|
link 27.02.2010 19:26 |
А ка Вы сдедаете перевод тысячм на 3 стр. с тучей графики в разумные сроки? |
|
link 27.02.2010 19:30 |
И. допустим, там будут с десяток карт 3х2м с десятками тысяч названий. |
|
link 27.02.2010 19:32 |
Не, я вижу, здесь дело в психологии. Геолог - насекомое общественное (с) |
Да, Игорь, Вы правы - это хорошая организация дела. Это уже практически фирмА! :) |
|
link 27.02.2010 19:40 |
Codeater, ФирмА - не фирмА, но так на деле практичнее. Я это сам изобрел и предложил настоящей фирмЕ (геологоразведочной) под большие объемы работы. Так оно и повелось. |
Дык, а я и без иронии. Я пробовал так работать втроем. Но друзьям не очень нужно было, они потом ушли, а я продолжаю один потихоньку, главным образом, чтоб не расслабляться. |
|
link 27.02.2010 19:55 |
Не, я про иронию и не подумал. На поверку выясняется, что очень многие иак работают -- подбиряют подмастерьев -- и вперед. Это же еще и интересно - учишь, сам наконец учишься)) А главное - веселее в команде. Не знаю, может это и правда от привычки к командной работе в поле. |
Alexander Oshis ✉ moderator |
|
link 27.02.2010 20:14 |
Игорь, тут проблема возникает - где взять надёжных коллег? Один сухорукий сказал по этому поводу: "Кадры решают всё" |
|
link 27.02.2010 20:34 |
Alexander Oshis, Никогда не было проблемы. На МТ -- присматриваетесь и потом проверяете. Чего человек стоит как переводчик -- проверить никогда нет проблемы. Ну расстатесь, в крайнем случае. |
Интересно, что мешало заказчику посчитать знаки в тексте оригинала ДО ТОГО, как отдавать его переводчику? Тогда бы уважаемый аскер сразу знал, на что рассчитывать. Некоторые БП так делают, это очень удобно. А еще лучше оплачивать работу по числу знаков перевода, а не оригинала. Считайте этот вопрос риторическим... |
Да, конечно, так гораздо лучше переводчику, но поскольку в данном случае перевод с английского на русский, то на выходе будет больше (ввиду большого объема - сильно больше), и заказчик это знает, поэтому и держится за свой вариант подсчета. |
Заказчик может ничего не знать, особенно, если он не имеет отношения к переводу. По поводу "в русском больше букафф, чем в английском" ... действительно, да русский и технический в т.ч. язык страдает некоторой избыточностью, но если потратить много времени и знать тему, то можно сделать мало букафф. Например, вместо "дебит нефти" в таблице написать Qн. Но на это же время надо. :) |
А если по существу, сделайте так, как предлагают newbe и eu_br: попросите заказчика прислать вам его распознанный файл и сравните со своим. |
Если заказчик настаивает на своем, то пусть пришлет свой распознанный вариант - его и переводите. Поддерживаю коллег. |
Кстати, есть еще один вариант - отсылка заказчику распознанного документа в ворде ПЕРЕД началом его перевода ПЛЮС статистики. Заказчик сравнивает оригинал с распознанным текстом, после чего либо подтверждает, либо не подтверждает расчет. В любом случае некоторый объем работы перед заключением сделки по переводу необходимо провести. Особенно, если перевод большой, и переводчик его получить хочет. |
|
link 28.02.2010 16:26 |
Не всякого заказчика уговоришь распознать текст. Хотя попытка - не пытка. Некоторые идут на такой резонный вариант - предварительный подсчет делается приблизительно, а уж по факту заказчик платит. |
Еще раз. Медленно. Если заказ предоставлен в нередактируемом формате (в данном случае PDF), то подсчет ведется по тексту перевода. Если заказчик хочет считать по оригиналу, то он должен его распознать (что он и сделал, если судить по слову "файнридер" в первом сообщении ветки) и прислать распознанный текст вместе со статистикой. А если заказчик насчитал n слов (строк, символов, др.) и собирается платить за n слов, а переводчик насчитал n+m слов, то это означает, что m слов он будет переводить бесплатно. Собственно, никто не может ему запретить это сделать. Возможные причины расхождения в статистике были названы, точнее определить, не имея перед собой текста, не удастся. |
N_N, спасибо за изящное резюме. Что мне удастся сделать на практике - другой вопрос, но в любом случае приятно встретить человека с четким системным мышлением. |
В советское время в ВЦП (Всесоюзный центр переводов научно-технической литературы и документации) был специальный Отдел оценки объема. Компьютеров тогда понятное дело не было и электронных форматов тоже. Перевод выполняли на пишущей машинке, а формулы и иллюстрации надо было аккуратно вырезать из оригинала и вклеить в перевод. Так вот, переводчики носили шоколадки девочкам из отдела оценки объема. Я это все к тому, что оценка объема - процесс весьма субъективный, и как выясняется, это так даже в наш век электроники. |
Если игнорировать некоторые очевидные вещи - то да, субъективный. Если разные участники процесса игнорируют разные вещи, то в конечном счете все придут к оплате шоколадкой(ами). Вам такое надо? Может быть, все же стоит освоить несколько не очень сложных программ и понять, в чем различие в подсчете? (Вопрос риторический - некоторые и от Традоса шарахаются как черт от ладана. Странно, что мультитраном пользуются, логичнее было бы листать бумажные словари и писать перевод в тетрадке в клеточку) |
|
link 1.03.2010 11:49 |
**писать перевод в тетрадке в клеточку** - конечно, предпочтительнее. Лежишь на лужайке и пишешь. Можно потом селедку завернуть в эту тетрадку. Всякие распознающие почерк девайсы вроде не за горами -- так это возврат к тетрадке. Люди правильно мыслят. Идеально, конечно, машинистке диктовать. Что я иногда по скайпу и делаю. |
|
link 1.03.2010 11:56 |
Кстати, есть словари (авторитетнейшие в отрасли), которые только в бумаге и существуют. И никаким МТ их не заменишь - не в этом веке точно. |
OFF! to N_N Скажите, пожалуйста, а почему Вам нельзя направить личное сообщение? |
Есть удивительнейшие люди - вроде бы взрослые, с виду вменяемые, и даже с высшим образованием, а понять не могут, что если три страницы набраны 6-м кеглем, то это совсем не три страницы. И обижаются! |
2 sermikam: Не знаю, почему нельзя. А надо? Удивительнейшим людям можно попытаться объяснить, что такое стандартная страница. Если не понимают - можно продолжать с ними дружить, но деловые отношения лучше прекратить, ибо себе дороже. |
"Скажите, пожалуйста, а почему Вам нельзя направить личное сообщение? " красивое предложение) Вам это когда to you или когда why dont you? |
2 N_N мне просто хотелось задать вопрос относительно ваших расценок за обрабортку пдфов (распознавание / верстку), которые, как Вы говорите, составляют основную часть Ваших заказов. Для меня это больной вопрос, поскольку у меня этот процесс занимает значительное время и мне приходится от пдфов отказываться, а может зря. Можно в личку. |
Вы не поверите - за распознавание ПДФ ничего не беру. Иногда принимаю извинения от заказчиков за неудобный формат. Затраты времени на распознавание компенсируются использованием традоса, т.к. перевожу в одной области уже давно, круг заказчиков достаточно узкий т. е. количество повторов достаточно высокое, хотя и далеко от желаемого. Случайным заказчикам за нередактируемый формат предлагаю повысить ставку на 30%, после этого либо получаю файл doc, либо они находят другого переводчика. |
"предлагаю повысить ставку на 30%," Непонятно. Думаю так: Если есть предложение работы, ты либо ее берешь по предложенной цене (оценив свои трудозатраты и экономический эффект), либо отказываешься. К примеру, лучше взять свою тематику и внятно написанный текст в грязном ПДФ, чем одиозную презентацию в пауэрпойнт или список деталей и клапанов в экселе. |
** К примеру, лучше взять ...** На вкус и цвет... (с) А работа с грязным pdf может с Традосом вообще быть несовместимой. И здорово покорежить вашу ТМ и все, что относится к Традосу. Так что, когда за ПДФ берусь - все распознавание приходится делать ручками, а это приличное время. Далеко не все заказчики это понимают. |
Если хороший текст и по своей теме, можно и без кошки поработать - выйдет больше долларов в час, чем при переводе с кошкой плохо написанного или навороченного текста. Вот что я имел в виду. |
2 kondorsky **можно и без кошки поработать ** Мы опасно приближаемся к тому, чтобы **писать перевод в тетрадке в клеточку** :-)) |
|
link 2.03.2010 15:29 |
<<Мы опасно приближаемся к тому, чтобы **писать перевод в тетрадке в клеточку**>> Не зря изобретаются распознавалки рукописи. Стало быть, спрос предполагается. Не надо бояться простых и естественных решений. РС не эргономичен -- спектр поз за тетрадкой в разы разнообразнее. |
...такой затейник! с) |
|
link 2.03.2010 17:31 |
....ну дык!!! |
|
link 2.03.2010 17:54 |
вспоминается древний анекдот -- ....l'ecriture de Sa Majeste La Reine....)) |
You need to be logged in to post in the forum |