Tłumacząc nowy tekst literacki, w celu oceny czasu potrzebnego na jego przetłumaczenie musimy znać objętość tekstu, co da nam pewne pojęcie o czasie, jaki trzeba będzie poświęcić na pracę. Sytuacja zmienia się nieco, gdy tłumaczymy tekst techniczny, zwłaszcza dłuższy, zawierający powtórzenia. W takiej sytuacji objętość całego tekstu to tylko jeden z parametrów definiujących tekst, drugim, znacznie ważniejszym, jest ilość słów ważonych.
Wiadomo, że teksty techniczne, zwłaszcza różnego rodzaju instrukcje obsługi i podręczniki, zawierają powtarzające się sformułowania i frazy. To właśnie wykorzystuje oprogramowanie typu CAT, podpowiadając nam w trakcie pracy tłumaczenie napotkanych wcześniej segmentów (np. zdań), co ułatwia i przyspiesza pracę. Jak jednak przyjmując tekst do tłumaczenia określić, ile faktycznie będzie wymagał pracy?
Po pierwsze, należy wykonać analizę tekstu korzystając z ulubionego programu CAT, np. Tradosa, Wordfasta czy OmegiT. Po utworzeniu nowej pamięci lub wczytaniu utworzonej wcześniej pamięci tłumaczeń z danej dziedziny dla konkretnego klienta możemy kazać programowi policzyć słowa w tłumaczonych dokumentach przy równoczesnym sprawdzeniu zgodności segmentów z istniejącymi w pamięci. W efekcie uzyskamy coś w rodzaju tabeli prezentującej rozbicie dokumentu(-ów) na liczbę segmentów i słów w zdefiniowanych z góry przedziałach procentowego podobieństwa. Przykład analizy prezentuje ramka poniżej.
Analyse Total (8 files): Match Types Segments Words Percent Placeables Context TM 0 0 0 0 Repetitions 666 8,594 33 34 100% 712 6,583 26 3 95% - 99% 158 3,123 12 31 85% - 94% 103 1,500 6 16 75% - 84% 91 1,001 4 3 50% - 74% 26 349 1 3 No Match 297 4,567 18 10 Total 2,053 25,717 100 100 Chars/Word 5.53 Chars Total 142,267
W oprogramowaniu CAT stosowane są dwa modele liczenia zgodności: „prosty” oraz z wewnętrznymi podstawieniami. Pierwszy z nich sprawdza ilość powtórzeń w tekście oraz porównuje tekst z zawartością bazy danych. Jeśli stworzymy nową bazę TM i przeprowadzimy analizę, możemy uzyskać taki wynik:
Analyse Total (8 files): Match Types Segments Words Percent Placeables Context TM 0 0 0 0 Repetitions 1,123 12,570 49 34 100% 24 30 0 0 95% - 99% 1 1 0 0 85% - 94% 2 3 0 0 75% - 84% 1 3 0 0 50% - 74% 1 5 0 0 No Match 899 13,105 51 66 Total 2,051 25,717 100 100 Chars/Word 5.53 Chars Total 142,267
(W tym przypadku nie była to pusta baza, tylko z innej dziedziny, stąd tych kilka przypadkowych zgodności.)
Widać, że program policzył nam powtórzenia… oraz liczbę słów w segmentach, które nie są podobne do niczego w TM. Drugi sposób liczenia, uwzględniający wewnętrzne podstawienia, da nam jeszcze inny wynik:
Total: 8 files Date: XXXXXXXXXXXXXXXXXXXXX Project: XXXXXXXXXXXXXXXXXXXXX Language direction: en-us > pl-pl Match Types Segments Words Percent Translated 0 0 0 Context Match 0 0 0 Repetitions 1148 12116 48.2 Format Change 53 1167 4.6 100% 5 7 0 95% - 99% 52 810 3.2 85% - 94% 58 964 3.8 75% - 84% 61 632 2.5 50% - 74% 126 1375 5.5 No Match 548 8081 32.1 Total 2051 25152 100 Chars/word 5.64
Zmieniła się nieco liczba powtórzeń, pojawiła się nowa kategoria – Format Change – ale przede wszystkim spadła liczba segmentów bez tłumaczenia (no match) i pojawiły się segmenty we wszystkich zakresach procentowych podobieństwa. Skąd się wzięły? Są to segmenty podobne do innych segmentów w tekście do przetłumaczenia. Znaczy to, że będziemy mieli z projektem mniej pracy, niż wydawało się na początku. Dobra wiadomość, prawda? Owszem, pod warunkiem, że takiej analizy nie dokona agencja zlecająca nam tłumaczenie. Wtedy oznacza to nie tylko mniej pracy, ale i mniej pieniędzy za tłumaczenie. W tej chwili bardzo niewiele programów CAT przeprowadza analizę z zastosowaniem wewnętrznych powtórzeń, ale ma się to pojawić jako opcja w najnowszej wersji pakietu Trados. Cóż, nie uciekniemy przed tym, ale gdy będziemy przyjmować tłumaczenie analizowane tą metodą musimy pamiętać, że pojawiające się w wyniku analizy segmenty nie muszą oznaczać, że w TM mamy już coś, na czym można będzie się oprzeć w pracy – może po prostu najpierw będziemy musieli sobie przetłumaczyć tekst, do którego inne segmenty będą podobne.
No dobrze, ale jak właściwie rozliczać tekst trochę podobny do zawartości TM? Ile są warte podstawienia z zakresu 75%-84%, a ile z 95%-99%? To już ustala agencja (albo my sami, jeśli pracujemy bezpośrednio dla klienta końcowego), określając wagę słów. Co to znaczy? Określonym zakresom podobieństwa przypisuje się pewną procentową wartość stawki bazowej. Ma to dwie zalety: po pierwsze, pozwala w rozsądny sposób wycenić tłumaczenie na podstawie wyniku analizy, po drugie, przez zsumowanie liczby słów z poszczególnych zakresów przemnożonych przez ich wagę uzyskujemy wygodny parametr, tak zwaną liczbę słów ważonych, która pozwala oszacować nakład pracy wymagany dla danego zlecenia.
Na jakiej podstawie przypisać wagi poszczególnym zakresom procentowym? Jeśli współpracujemy z biurem, tego rodzaju informacje powinny znajdować się na umowie, w rachunku lub w materiałach dostępnych dla tłumaczy. Jeśli chcemy te wartości określić dla siebie, to najprościej znaleźć i porównać rozliczenia kilku biur tłumaczeń. Poniżej zamieszczam trzy przykłady biur, z którymi współpracuję:
Translated 0 0 0 Repetitions 0 0 25 100% Match 0 0 25 95% - 99% 0 25 50 85% - 94% 50 60 50 75% - 84% 50 60 50 50% - 74% 100 90 100 No Match 100 100 100
Chyba łatwo się domyślić, którą firmę lubię najbardziej 🙂
Gdy mamy już wszystkie potrzebne parametry, możemy sobie policzyć liczbę słów ważonych korzystając z arkusza kalkulacyjnego (Excell, Calc) lub używając bardzo wygodnego programu, CatCount. Program jest bezpłatny, można go pobrać ze strony producenta (stanowi również element programu Translation Office 3000). Po zainstalowaniu można w wygodny sposób określić wagi procentowe słów (a nawet zapisać ustawienia dla różnych klientów) i po wpisaniu liczby słów uzyskamy liczbę słów ważonych.
Co więcej, program potrafi importować pliki analizy programu Trados, co oszczędza nam konieczności ręcznego wklepywania tych danych.
Na koniec, dla porównania liczba słów ważonych dla pierwszego podanego rozliczenia przy użyciu trzech zaprezentowanych powyżej schematów – odpowiednio: 6166, 7162 i 11522.