Apr 19

Liczenie słów

calcDostaliśmy do przetłumaczenia tekst. Klient chce wiedzieć, ile go to będzie kosztowało, a cena oczywiście zależna jest głównie od objętości tekstu. Musimy więc policzyć wielkość potencjalnego tłumaczenia, stosując jedną z powszechnie przyjętych miar: arkusze, strony, linie lub słowa. Jak to zrobić? Odpowiedź na to pytanie zależna jest od kilku czynników, z których najważniejsze to postać, w jakiej dostaliśmy tekst do tłumaczenia, oraz narzędzia, którymi dysponujemy.

Na początek – jak przeliczać dostępne jednostki?

  • Arkusz – ew. arkusz wydawniczy, jednostka obliczeniowa stosowana głównie w przypadku książek, liczy 40 000 znaków ze spacjami, czyli około 22 stron standardowego maszynopisu.
  • Strona maszynopisu – jednostka przyjęta w czasach maszyn do pisania, gdy wszystkie litery miały tę samą szerokość. Standardowa strona maszynopisu to 1800 znaków ze spacjami. Niektóre biura tłumaczeniowe stosują własne „strony rozliczeniowe”, np. 1600 lub 1500 znaków, ze spacjami lub bez, dlatego przed nawiązaniem współpracy dobrze jest wyjaśnić sobie wszelkie wątpliwości.
  • Linia lub wiersz – o ile mi wiadomo jako jednostka rozliczeniowa stosowana głównie w języku niemieckim. Standardowo liczy 55 znaków, ale sam nigdy się z rozliczaniem na linie nie zetknąłem (może dlatego, że tłumaczę z angielskiego).
  • Słowo – standardowa jednostka w przypadku pracy dla klientów anglojęzycznych lub biur stosujących narzędzia typu CAT. Z moich doświadczeń wynika, że w przypadku tekstu angielskiego średnia długość słowa to 5 znaków (+/- 0,5), więc z niezłym przybliżeniem można dokonać następującego przeliczenia:

1 strona maszynopisu = 300 słów (czyli 1500 znaków słów + 300 spacji)

Wiemy już co liczymy, zajmijmy się teraz sposobem liczenia.

Zacznijmy od sytuacji najprostszej – tekst dostaliśmy w pliku Worda (.doc lub .rtf), i oczywiście mamy ten program. Word jest na tyle miły, że może nam podać bardzo dokładną statystykę dotyczącą otwartego pliku. W Wordzie 2007 należy w tym celu kliknąć w lewy róg dolnej belki w miejscu, gdzie wyświetlana jest liczba wyrazów – spowoduje to wyświetlenie okienka z rozpisaną liczbą stron, akapitów, wierszy, wyrazów znaków i znaków ze spacjami.

Wywołanie okna ze statystyką dokumentu.

Wywołanie okna ze statystyką dokumentu.

Dostępny jest również drugi sposób na wyświetlenie statystyki, znacznie bardziej skomplikowany – klikamy okrągły znaczek w lewym górnym rogu okna, potem Przygotuj -> Właściwości, a następnie z listy rozwijalnej w lewym górnym rogu paska „Właściwości dokumentu” wybieramy „Właściwości zaawansowane” i kartę „Statystyka”. Ten sposób jest o tyle przydatny, że umożliwia przy okazji dotarcie do właściwości dokumentu – np. informacji o autorze czy tytułu, co czasem może być przydatne.

Przy okazji poznaliśmy procedurę liczenia słów w starszych wersjach Worda, do 2003: klikamy menu Plik -> Właściwości -> Statystyka. Dostępne są te same informacje, co w przypadku Worda 2007.

Jeżeli nie dysponujemy Wordem, możemy użyć innego edytora tekstu, na przykład Writera z pakietu OpenOffice: klikamy menu Plik -> Właściwości -> Statystyka. W tym przypadku program podaje liczbę znaków ze spacjami. Jeśli klient życzy sobie rozliczenia w znakach bez spacji, zawsze można po przetłumaczeniu usunąć wszystkie spacje z dokumentu używając funkcji Znajdź i zamień i odesłać plik w takiej formie (tylko wcześniej warto zrobić sobie kopię zapasową pliku ze spacjami).

W przypadku niewielkiego tekstu, możemy również skorzystać z serwisów internetowych oferujących liczenie objętości tekstu. Dwa przykładowe to http://www.translatorsbase.com/word-counting.aspx i http://felix-cat.com/tools/wordcount/. Przy czym o ile w tym pierwszym wkleja się tekst w okienko, to w drugim należy wysłać plik na serwer, a jego zaletą jest możliwość zliczenia liczby znaków i słów w pliku PDF. Wadą – ograniczenie wielkości pliku do 1 MB.

Co jednak zrobić, gdy plików do policzenia jest więcej? Sprawdzanie wielkości każdego z osobna będzie pracochłonne i zajmie sporo czasu. W takiej sytuacji możemy skorzystać z narzędzia do liczenia słów. Choć można ich w Internecie znaleźć całkiem sporo, trudno jednak o darmowe. Mogę polecić dwa programy z tej kategorii:

  • freebudgetFreebudget – Program dostępny do ściągnięcia stąd. Rozprowadzany jest na zasadzie donateware – wersja bezpłatna wyświetla reklamy, po przesłaniu autorowi darowizny (sami wybieramy kwotę), pozbywamy się reklam. Program może liczyć objętość wszystkich plików w katalogu, lub plików dowolnie dodawanych do listy, podając objętość poszczególnych plików oraz sumę wszystkich. Miłą cechą jest wyświetlanie procentowej ilości powtórzeń w ramach jednego pliku (nie między plikami) oraz – po zdefiniowaniu stawki oraz wydajności – wyliczenie szacunkowej wartości tłumaczenia oraz czasu potrzebnego na jego ukończenie. Teoretycznie spora jest lista formatów obsługiwanych przez Freebudget, ale nie do końca można na niej polegać, bo w przypadku plików PDF podawane są nonsensowne wartości. Tym niemniej – rtf, doc, dot, txt, asc, wri, mcw, wpd, wps, xls, pdf, ppt, htm, xml, asp, php, sxw, sxc, sxi, stw, sti, stc.
  • Total AssistantTotal Assistant – program dostępny w wersji darmowej i płatnej, Pro. Wersja płatna różni się możliwością generowania zaawansowanych raportów. Interfejs jest znacznie prostszy niż we Freebudget, za w przeciwieństwie do poprzednika, program bardzo dobrze radzi sobie z liczeniem objętości plików PDF. Program można ściągnąć ze strony producenta.

Wypada jeszcze wspomnieć o mistrzu w kategorii liczenia objętości tekstu w plikach, programie Anycount.  Obsługuje on bardzo szeroki zakres formatów i z tego co wiem, robi to bardzo dobrze. Niestety – kosztuje 49 Euro. Dostępna jest 30-dniowa wersja testowa.

Jeśli dysponujemy jakimś programem CAT i używamy go w pracy, oczywiście najlepszą metodą liczenia objętości pliku będzie wykonanie analizy, co zapewni nam nie tylko informacje o ilości słów i znaków w tekście, ale także szczegółowe dane dotyczące powtórzeń i podstawień z pamięci TM dla poszczególnych plików i dla całego projektu. Przykładowe podsumowanie raportu wygląda następująco:

Analyse Total (8 files):

 Match Types  Segments        Words Percent Placeables
 Context TM          0            0       0          0
 Repetitions       666        8,594      33         34
 100%              712        6,583      26          3
 95% - 99%         158        3,123      12         31
 85% - 94%         103        1,500       6         16
 75% - 84%          91        1,001       4          3
 50% - 74%          26          349       1          3
 No Match          297        4,567      18         10
 Total           2,053       25,717     100        100

 Chars/Word       5.53
 Chars Total   142,267

Jak widać, o ile łączna objętość plików do tłumaczenia to  25 717 słów, to całkiem nowych słów (takich, których nie mamy jeszcze w TM) jest tylko 4567 (o procentowym podobieństwie i jego rozliczani innym razem). W programie Translator’s Workbench z pakietu Trados funkcja analizy dostępna jest w menu Tools -> Analyze.

A co z papierem?

Jest jeszcze jeden przypadek, o którym warto wspomnieć. Co zrobić, gdy dostaniemy do przetłumaczenia tekst na papierze? Moim zdaniem, najlepiej przeskanować i zamienić na tekst przez OCR, jeśli jednak musimy na szybko ocenić objętość tekstu do przetłumaczenia, opracowałem na swoje potrzeby następującą metodę wyliczania objętości książek:

  • liczymy ilość znaków w dowolnym pełnym wierszu strony (włącznie z odstępami między słowami),
  • liczymy ilość wierszy na stronie,
  • mnożymy liczbę znaków w wierszu przez liczbę wierszy,
  • uzyskany wynik mnożymy przez liczbę stron,
  • od tej wartości odejmujemy 15-30%, w zależności od ilości wolnego miejsca na stronach (dialogi, puste strony między rozdziałami itp.).

Uzyskamy w ten sposób wartość szacunkową, z dokładnością ~10%, co jednak może nam zapewnić jakieś pojęcie o czekającej nas pracy.

Na koniec jedna rada – nigdy nie wierzyć klientom na słowo co do objętości tekstu do tłumaczenia.  Bo „tylko 10 stron” może po przeliczeniu mieć tak naprawdę 25 stron rozliczeniowych, o czym kiedyś bardzo boleśnie się przekonałem. Przed akceptacją terminu tłumaczenia należy zawsze samemu sprawdzić jego objętość. Amen.

2 pings

  1. […] pierwsze, należy wykonać analizę tekstu korzystając z ulubionego programu CAT, np. Tradosa, Wordfasta czy OmegiT. Po utworzeniu nowej […]

Leave a Reply

Your email address will not be published.