«

»

Aug 31

Tłumaczenie plików PDF – wreszcie dobra wiadomość

Z problemem tłumaczenia plików PDF zetknęła się chyba większość tłumaczy – klient przysyła PDF, bo przecież „tylko taki plik posiada” i „nie da się” uzyskać formatu źródłowego. Cóż, w takiej sytuacji zazwyczaj wypada zakasać rękawy i brać się do konwersji. Albo nie – pojawiło się bowiem stosunkowo nowe narzędzie umożliwiające zupełnie nowe podejście do tłumaczenia plików PDF – Infix firmy Iceni.

Tradycyjnie tłumaczenie plików PDF wiąże się z zastosowaniem konwertera PDFów, zmieniającego plik PDF w formę edytowalną (zazwyczaj plik .DOC). Z moich doświadczeń wynika, że konwertery dzielą się na dobre, takie sobie i darmowe. Osobiście do konwersji stosuję dwa programy komercyjne — NitroPDF oraz Gemini. Oba mają mocniejsze i słabsze strony – np. NitroPDF lepiej radzi sobie ze złożonym układem tekstu i tabelami, za to Gemini lepiej sprawdza się przy długich blokach tekstu, wstawiając mniej zbędnych podziałów wierszy. Następny etap pracy polega na usunięciu z tekstu ukrytych znaczników (używając CodeZappera lub memoQ). Potem trzeba poprawić formatowanie, nanieść style, wygenerować prawdziwy spis treści… Wreszcie dochodzimy do tłumaczenia, po którym generujemy plik w języku docelowym i jeszcze raz poprawiamy formatowanie, dopieszczając wszelkie niedoróbki. Cała procedura przygotowywania dokumentu i jego de facto składania może trwać nawet kilka dni (dla zainteresowanych – oferuję taką usługę). Na dodatek klient nie zawsze chce płacić za czas poświęcony na przygotowanie tekstu. Czy nie ma na to rady?

Otóż jest. Program Infix firmy Iceni oferuje zupełnie nowe podejście do problemu tłumaczenia plików PDF. Jeśli przyjrzeć się strukturze pliku PDF okaże się, że zawiera on tekst oraz informacje dotyczące jego formatowania i ułożenia na stronie. Czemu więc nie wyciągnąć samego tekstu, zachowując informacje o jego układzie? Taki tekst można by przetłumaczyć, a następnie zaimportować z powrotem, podstawiając na miejsce oryginału.

I dokładnie taką funkcję oferuje Infix. Po otwarciu pliku PDF możemy skorzystać z funkcji Translate z menu Document, gdzie mamy możliwość wyeksportowania treści dokumentu do pliku TXT lub XML. Sugeruję skorzystanie z formatu XML, ponieważ dużo łatwiej można go potem zaimportować do programu CAT. W przypadku programu memoQ plik należy otworzyć korzystając ze standardowych ustawień fitra XML – w większości wypadków wystarczy użyć funkcji Populate z domyślnymi ustawieniami, a w przypadku nadmiaru znaczników w tekście można się ich łatwo pozbyć modyfikując ustawienia filtra. Po przetłumaczeniu tekstu w ulubionym programie CAT generujemy plik wynikowy, który importujemy do oryginalego pliku PDF. Tekst źródłowy zostaje zastąpiony naszym tłumaczeniem, z zachowaniem formatowania i układu. Proste i genialne.

Przetłumaczony tekst zaimportowany do oryginalnego PDFa. Bez profesjonalnego programu do składu stworzenie takiej tabeli nie jest trywialne. (Rozmycie dodane w celu ukrycia zastrzeżonych nazw).

Oczywiście, nic nie jest idealne. Po pierwsze, należy zwrócić uwagę na czcionki. Jeśli dokument źródłowy został przygotowany z użyciem standardowych fontów pakietu MS Office, nie powinno być z nim problemów, jednak użycie rzadszych czcionek może prowadzić do konieczności ręcznego przypisania odpowiedników z właściwym zakresem znaków. Trzeba przyznać, że Infix sprawuje się tu bardzo dobrze – w przypadku problemów, dla każdej czcionki użytej w dokumencie wyświetla listę brakujących znaków, umożliwiając wybranie zastępnika – najlepiej jedną z czionek unikodowych (np. Arial Unicode MS). Problem można też zignorować, jednak wtedy brakujące znaki zostaną pominięte.

Drugi problem przy imporcie tłumaczenia wiąże się ze zmianą objętości tekstu – w przypadku pary EN-PL tłumaczenie zazwyczaj ma objętość większą od oryginału. Tutaj mamy do wyboru dwie opcje – automatyczne dopasowanie tekstu, bądź ręczne nanoszenie poprawek. Jeśli zdecydujemy się na skorzystanie z automatu, program w razie potrzeby nieznacznie zmniejszy wielkość czcionek tak, by tekst zmieścił się w oryginalnej ramce tekstowej. Trzeba przyznać, że w przypadku większych bloków tekstowych zmiana nie rzuca się w oczy i musiałem uważnie porównać stronę z oryginałem, by odkryć sposób dopasowywania tekstu. Alternatywnym rozwiązaniem jest ręczne dopasowywanie wielkości ramek tekstowych tak, by widoczny był cały tekst – warto przy tym wspomnieć, że Infix bardzo dobrze radzi sobie z funkcją „reflow” – dopasowaniem tekstu do ramki.

Przetłumaczony tekst wstawiony do oryginalnego PDFa z opcją automatycznego dopasowania wielkości tekstu. Czas poświęcony na skład - 0 minut.

Jak widać na przykładach powyżej, można dzięki programowi zaoszczędzić sporo czasu. Świetnie sprawdza się w tabelach i nieskomplikowanym składzie, idealnie w podręcznikach obsługi z dużą ilością pustego miejsca na stronach. Poważne problemy pojawiają się tylko przy tekstach o niestandardowych czcionkach oraz takich, w których jest bardzo mało miejsca na „puchnięcie” tekstu.

Warto dodać, że możliwość eksportu tekstu i importu tłumaczenia to nie jedyne funkcje programu Infix – można go użyć do zwykłej edycji plików PDF – wystarczy wybrać narzędzie tekstowe, by swobodnie modyfikować tekst, lub korzystając z innych narzędzi przenosić, skalować lub przycinać obiekty graficzne. Dostępna jest też funkcja korekty dokumentów po OCR – w tym trybie zmniejszany jest kontrast elementów graficznych, co ułatwia wyświetlanie i edycję tekstu. Ponadto możliwe jest łączenie różnych plików PDF i jeszcze parę ciekawych funkcji, z którymi warto zapoznać się samemu.

Program dostępny jest w wersji demo, w której można dowolnie korzystać z wszystkich funkcji z jednym ograniczeniem – zapisane pliki PDF posiadają znak wodny (widać go na obu ilustracjach). Co ciekawe, żeby móc zapisać plik bez znaku wodnego, nie trzeba kupować pełnej wersji programu — dostępna jest funkcja „Pay & Save” – za 30 dolarów można kupić możliwość trzykrotnego zapisania dokumentu bez znaku wodnego, co daje 10$ za zmodyfikowany dokument. Przy czym plik można przerabiać dowolną liczbę razy, zapisując ze znakiem wodnym, a dopiero po osiągnięciu jego ostatecznej postaci skorzystać z funkcji płatnego zapisu bez znaku wodnego.

Zdecydowanie polecam program Infix wszystkim mającym do czynienia z tłumaczeniem plików PDF – nie jest rozwiązaniem na każdą ewentualność, ale niewątpliwie może bardzo ułatwić życie w niektórych sytuacjach.

23 comments

Skip to comment form

  1. Maciej Kosmowski

    Takie rozwiązania już były wcześniej w postaci wtyczek do programów DTP gdzie istniała możliwość wyeksportowania tekstu do pliku xml a później jego ponownego zaimportowania.
    Mimo to narzędzie opisane tutaj jest warte uwagi ze względu choćby na cenę.

  2. Michał Berski

    Hmm, ściągnąłem dziś wersję próbą i nie jestem raczej zbudowany jakością OCR-owania, tzn otworzyłem pdf i zapisałem jako rtf – ABBY radzi sobie lepiej z odcyfowywaniem tesktu

    1. Wasaty

      Właściwie to nawet nie przyjrzałem się, że program potrafi robić OCR – niewątpliwie są do tego lepsze narzędzia, sam używam ABBY Transformer. Siła Infix polega na możliwości wyciągnięcia tekstu z “prawdziwego” PDFa — czy to w formie konwersji do worda, czy też — co znacznie ciekawsze — w formie XMLa, który można po przetłumaczeniu “wstawić” z powrotem, zachowując layout. Plus, możliwość różnorodnych modyfikacji pliku PDF też ma swoje zalety.

  3. Michał Berski

    Nio tak, ale dla mnie do akurat funkcja niepotrzebna, bo raz że często dostaję graficzne pliki pdf, gdzie i tak nie ma tekstu do wyciągnięcia, i trzeba OCR-ować (ABBY finereader się sprawdza), a po drugie zleceniodawcy oczekują ode mnie plików worda

  4. Translogos

    Tu się nie zgodzę, ostatnio coraz rzadziej występują pliki doc. Cena 10 $ za dokument wydaje się nieco wysoka, na rynku Polskim taka wersja próbna raczej się nie sprawdzi.

    1. Wasaty

      Wszystko zależy od wielkości pliku. Jeśli tłumaczenie warte jest w okolicach tysiąca lub więcej dolarów, czym jest przy tym koszt 10$? A co do “rzadziej występują” to kwestia klienta, nie generalizowałbym.

  5. Marta

    witam, a co z narzędziem wbudowanym w Trados 2011 które “works with PDF files whose text is editable (easy selection and generated directly from MS Office and design software)”…?
    Przysłano mi do tłumaczenia książkę w pdf, trados przerabia ją na “przetłumaczalną” ale… target nie powstaje… nie wiem czy to ja coś robię zle czy też opisany tutaj program jest mi jednak niezbędny? czy do ułożenia tekstu w pdf zawsze potrzebny będzie DTP lub wlasnie Infix?

    1. Wasaty

      Jak dotąd narzędzia do tłumaczenia PDFów z Tradosa próbowałem tylko raz, jeszcze w wersji 2009 i działało fatalnie – zdania były źle podzielone, każdy wiersz był osobnym akapitem. Może teraz jest lepiej, nie wiem. Za to podejrzewam, że podobnie jak w przypadku memoQ, ta funkcja działa przez ekstrakcję tekstu z pliku PDF i po tłumaczeniu otrzyma Pani plik tekstowy, bez formatowania.
      Jeśli chce Pani przetłumaczyć książkę dostarczoną w PDF, to niestety sugerowałbym użycie jakiegoś programu do konwersji. Infix jest jedną z możliwości, choć z moich doświadczeń wynika, że bardziej nadaje się do krótszych tekstów. Można też wygenerować z Infixa tekst w XML, przetłumaczyć a potem zaimportować do Worda jako tekst i przerobić znaczniki XMLa na formatowanie (pogrubienie, kursywa itp.). Jeśli formatowanie tekstu źródłowego jest bardziej złożone, sugerowałbym użycie programu w rodzaju NitroPDF albo Gemini – umożliwiają one konwersję PDF do DOC z niezłym poziomem zachowania układu i zazwyczaj niewielką liczbą błędnie podzielonych akapitów oraz innych błędów formatowania. Minus tego podejścia – w tekście pojawia się mnóstwo znaczników, które najlepiej usunąć programem CodeZapper albo tłumaczyć w memoQ, który potrafi usuwać zbędne znaczniki.

  6. Michał Tyszkowski

    Jedna drobna wada Infixa: Jeżeli zdanie zawiera zmianę czcionki, na przykład jakiś fragment jest pogrubiony albo pisany kursywą, to po zapisaniu do XMLa powstaną z tego osobne węzły , czyli w efekcie osobne segmenty w CAT. A więc zdanie

    “Click the Print button”

    będzie podzielone na 3 segmenty:

    Click the
    Print
    button

    Czasem może to utrudnić życie. Spróbuję zasugerować autorom, żeby to zmienili (wydaje się prostą do poprawy niedoróbką). I uwaga dla osób nielubiących płacić za oprogramowanie: Znak wodny można łatwo usunąć np. w Acrobat Professional (też płatny, ale jeżeli ktoś już ma, to może sobie poradzić).

  7. Jakub

    Witam
    Jak wprowadzić do pliku przetłumaczony tekst.
    Nie wiem jak tego dokonać.
    Poproszę o pomoc

    1. Wasaty

      Tekst “wyciąga się” przez Document > Translate > CAT Export a importuje z powrotem przez Document > Translate > CAT Import.
      Z tym że po eksporcie plik należy zapisać, czego zresztą domaga się program, inaczej import nie będzie możliwy.

  8. Jakub

    Tak robię i nic się nie dzieje

  9. Wasaty

    A czy na pewno do importu używa Pan pliku zapisanego po eksporcie?

  10. Jakub

    Eksportuję do txt
    Potem mam 3 opcje
    wybieram Add Watermark
    wyskakuje okienko by zapisać w pdf, ale co? , nie wiem.
    Daję inną nazwę i zapisuję.
    Teraz tłumaczę tekst z pliku txt.
    No i go importuję z tą samą nazwą.
    I nic.

  11. Wasaty

    Trzeba zapisać pdf, najlepiej z inną nazwą. A do importu otworzyć ten pdf zapisany po eksporcie tekstu. Działa na 100%.

  12. Jakub

    Po eksporcie automatycznie się otwiera ten z nową nazwą pdf.
    Importuję przetłumaczony plik txt i nic, okienko się zamyka bez zmian w pliku z pdf tym przy imporcie zapisanym.
    Żaden komunikat po imporcie nie wyskakuje .

  13. Jakub

    Dokleiła się informacja o programie do stron pliku pdf

  14. Wasaty

    Jedyne, co przychodzi mi do głowy to mapowanie czcionek – jeśli są jakieś problemy, proszę dać Arial i sprawdzić, czy tekst będzie widoczny.

    Co do “doklejania – Żeby mieć “czysty” pdf należy kupić program albo pakiet aktywacji – trzy za 30$. Informacje na stronie producenta.

  15. Jakub

    W jakim programie to tłumaczyć?

  16. Wasaty

    W dowolnym, który poradzi sobie z formatem pliku. Ja używam memoQ, ale można też “ręcznie”, bez żadnego programu CAT, jeśli komuś zależy.

  17. Jakub

    A jak to się robi w tym memoq.
    Sory za takie pytania , nie znam angielkiego.

  18. Wasaty

    Niestety nie mam dość czasu, by pisać szczegółową instrukcję.

  19. Jakub

    Myślałem że wystarczy kliknąć ikonkę i będzie OK.
    No nic dzięki, pozdrawiam.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>