May 29

MultiTerm – importowanie glosariuszy

MultiTerm_logoMultiterm. Program o potężnych możliwościach, lecz pisany przez osoby o sposobie myślenia kompletnie nieprzystającym do większości populacji. Osoby, które zaczęły pracę z CAT od Tradosa rzadko cenią sobie glosariusze, ponieważ Trados nie wymusza ich stosowania, a tworzenie i “konserwacja” glosariuszy w MultiTermie (MT) jest – delikatnie ujmując – niezbyt łatwa. Nawet z pozoru tak banalne zadanie jak przygotowanie bazy w MT z otrzymanego glosariusza w Excelu może być drogą przez mękę. Jak to zrobić szybko i bezstresowo? Zapraszam do lektury.

Disclaimer: tekst w pierwotnej postaci napisałem na jednym z forów internetowych ponad pół roku temu, ale ponieważ właśnie ktoś znowu miał problem z MT, postanowiłem go uzupełnić i umieścić w miejscu, gdzie łatwiej będzie go znaleźć.

Generalnie import danych najłatwiej wykonać z arkusza Excela lub pliku tekstowego z separatorami (.csv), przy czym z moich doświadczeń wynika, że MultiTerm Convert czasem nie chce przetwarzać całkowicie poprawnego .xls, a połyka plik tekstowy. Przed rozpoczęciem importu należy też zamknąć program Excel. Tekst do importu musi się znajdować w postaci kolumn, tj. hasła w różnych językach muszą być w jednym rzędzie. Nie ma znaczenia liczba kolumn oraz zawartość kolumn dodatkowych (np. z komentarzem czy wymową). Kolejność kolumn też nie jest istotna – możemy mieć np. arkusz, w którym znajdują się kolejno: hasło źródłowe, definicja, informacje o kontekście, źródło, tłumaczenie, informacje pomocnicze itd. Natomiast niezwykle ważne jest, by w pierwszym wierszu kolumn z znajdowały się ich opisy, w szczególności określenia języka (np. English, Polski). Uwaga – jeżeli chcemy do jednej bazy MT importować glosariusze z różnych źródeł, czyli np. zaimportować dwa glosariusze do jednej bazy MultiTerma, konieczne jest użycie w obu wypadkach identycznego opisu języka (np. dwa razy EN, dwa razy EN-US, albo dwa razy English). Jeśli nagłówek w jednym z plików będzie inny niż w drugim, taki import może się udać, ale później będzie mnóstwo problemów z uzyskaną bazą (np. brak możliwości eksportu, brak możliwości wyszukiwania części terminów).

Procedura wygląda następująco:

1. Zapisać arkusz Excela jako plik tekstowy Unicode (inaczej stracimy pliterki). W Excelu 2007: okrągły przycisk Office > Zapisz jako > Inne formaty > Tekst Unicode (*.txt). Poszczególne kolumny w wierszu będą oddzielone tabulatorami. W przykładzie poniżej mamy do czynienia z najprostszym rodzajem pliku, zawierającym wyłącznie terminy w dwóch językach, bez żadnych pól opisowych czy pomocniczych.
2. Uruchomić program MultiTerm Convert.
3. Wybrać nową sesję konwersji > “Spreadsheet or database exchange format”.
4. Wskazać wejściowy plik .txt, wybrać właściwą liczbę kolumn, upewnić się, że wszystko wygląda OK.

Wybór separatora danych w importowanym pliku (zazwyczaj tabulator), możliwość wybrania liczby kolumn do importu (tutaj dwie). Podgląd w dolnej części okna ułatwia wybranie właściwych ustawień.

Wybór separatora danych w importowanym pliku (zazwyczaj tabulator), możliwość wybrania liczby kolumn do importu (tutaj dwie). Podgląd w dolnej części okna ułatwia wybranie właściwych ustawień.

5. W oknie “Available column header fields” wybrać nagłówki języków, kolejno oba zaznaczając jako “Index field” z przypisanym właściwym językiem.

Bardzo ważny krok - należy wybrać, które pola (kolumny) będą indeksowane, czyli które zawierają terminy do wyszukiwania. Zwrócić uwagę na właściwy wybór języka z listy rozwijanej po prawej dla każdego języka w polu po lewej. Jeśli w importowanym pliku mamy dodatkowe pola, oznaczamy je jako "Descriptive".

Bardzo ważny krok - należy wybrać, które pola (kolumny) będą indeksowane, czyli które zawierają terminy do wyszukiwania. Zwrócić uwagę na właściwy wybór języka z listy rozwijanej po prawej dla każdego języka w polu po lewej. Jeśli w importowanym pliku mamy dodatkowe pola, oznaczamy je jako "Descriptive".

6. Jeśli wszystko zostało wykonane prawidłowo, powinniśmy dostać drzewko z “Entry level” na górze, pod którym mamy dwa (lub więcej) języków z przypisanym do każdego polem “Term”. Jeśli mamy pola dodatkowe (opis, wymowa itp.), dodajemy je w odpowiednim miejscu struktury. Po zakończeniu klikamy “Next” aż do skutku.

Drzewko terminu z dwoma językami, bez żadnych pól dodatkowych. Jeśli mamy pola opisowe (Descriptive), możemy je umieścić we właściwym miejscu struktury, przypisując je do poziomu terminu albo konkretnego języka (np. możemy mieć ogólną definicję, przypisaną na poziomie terminu, albo osobne definicje po polsku i po angielsku, wtedy obie definicje należy przypisać do poziomu właściwego języka).

Drzewko terminu z dwoma językami, bez żadnych pól dodatkowych. Jeśli mamy pola opisowe (Descriptive), możemy je umieścić we właściwym miejscu struktury, przypisując je do poziomu terminu albo konkretnego języka (np. możemy mieć ogólną definicję, przypisaną na poziomie terminu, albo osobne definicje po polsku i po angielsku, wtedy obie definicje należy przypisać do poziomu właściwego języka).

7. Uruchamiamy MultiTerma. W menu Termbase wybieramy “Create TermBase”.
8. W kreatorze wpisujemy nazwę i w kolejnym oknie wybieramy “Load existing termbase definition file”. Wskazujemy plik .xdt wygenerowany w trakcie importu. Jedziemy do końca nie zmieniając żadnych istotnych parametrów. Chyba, że bardzo chcemy – patrz ilustracja poniżej.

Tworzenie bazy terminologii na podstawie importowanej definicji. W tym wypadku dodano dodatkowe pole "Source" na poziomie tłumaczenia terminu. Termin angielski może mieć więcej niż jedno tłumaczenie, chcę mieć możliwość zanotowania, skąd pochodzi konkretne tłumaczenie terminu źródłowego.

Tworzenie bazy terminologii na podstawie importowanej definicji. W tym wypadku dodano dodatkowe pole "Source" na poziomie tłumaczenia terminu. Termin angielski może mieć więcej niż jedno tłumaczenie, chcę mieć możliwość zanotowania, skąd pochodzi konkretne tłumaczenie terminu źródłowego.

W ten sposób stworzyliśmy bazę MuliTerma, ale to nie koniec – należy jeszcze osobno zaimportować do niej wpisy.

9. W zależności od wersji Multiterma:

a) wersje starsze – “Termbase > Import entries > Process” i wybieramy plik .xml stworzony przez Converta.
b) wersja 2009 – zakładka Catalog > Import > Default import definition, klikamy prawym przyciskiem myszy, wybieramy polecenie “Process” i wskazujemy plik .xml stworzony przez Converta (nie pytajcie mnie, kto wymyślił tę niezwykle intuicyjną sekwencję).

Miejsce, w którym znajduje się polecenie "Process" służące do importu terminologii do stworzonej bazy.

Miejsce, w którym znajduje się polecenie "Process" służące do importu terminologii do stworzonej bazy.

W razie problemów zawsze można sobie obejrzeć za pomocą edytora tekstowego plik .xml tworzony przez MultiTerm Convert i sprawdzić, czy ma logiczną strukturę (wbrew pozorom jest dość przejrzysta). Często umożliwia to stwierdzenie, co właściwie jest nie tak z naszym importem i naprawienie błędów (np. zdefiniowano dwa razy ten sam język).

Jeszcze jedna porada – co zrobić z glosariuszem w postaci tabeli .html? Wystarczy otworzyć taki plik w Wordzie, zaznaczyć w nim tabelkę, skopiować i wkleić do arkusza Excela. Dalej – patrz punkt 1.

Leave a Reply

Your email address will not be published.