Apr 07

OCR, czyli „prześlę to panu faksem”

skanerWiększość tłumaczeń technicznych wykonuję dla biur tłumaczeniowych. Oczywiście jako wykonawca dostaję stawkę niższą, niż to, co płaci klient, ale biuro za coś te pieniądze bierze. O szczegółach może kiedy indziej, tym razem ograniczę się do faktu, że przeważnie to biuro zajmuje się przygotowaniem tekstu do tłumaczenia. Ja dostaję tekst, tłumaczę, odsyłam. Nie interesuje mnie, w jakim formacie klient dostarczył swój tekst, nie interesuje mnie, w jakim formacie chce go otrzymać. Niestety, zdarzają się wyjątki.Dostałem dziś do tłumaczenia teksty w plikach PDF. Niby nic, w końcu mam bardzo dobry program do ekstrakcji tekstu z PDFów. Nic z tego – pliki zawierały obrazy z przeskanowanym tekstem. Ponieważ nie kusiło mnie przepisywanie, a bez plików tekstowych nie sposób skorzystać z narzędzi CAT, należało wykonać OCR tekstów.

Z pomocą przyszła wyczytana gdzieś kiedyś wzmianka o serwisie, który oferuje tego typu usługi online. Szybkie wyszukiwanie w guglu pozwoliło znaleźć aż dwa serwisy oferujące bezpłatny OCR:

Zacząłem od tego pierwszego. Po szybkiej rejestracji, podczas której dowiedziałem się, że mogę przeskanować 30 stron dziennie, uzyskałem możliwość uploadu pliku, a po jego zakonczeniu program oferuje możliwość podglądu pierwszej strony dokumentu oraz pozwala na rozpoczęcie OCR lub rezygnację. Program podaje także liczbę stron dokumentu oraz liczbę pozostałych stron dziennego limitu. Samo skanowanie trwało kilka minut (7 stron), po czym mogłem już ściągnąć plik w formacie .doc.

Muszę przyznać, że jakość OCR okazała się bez zarzutu. W angielskim tekście farmaceutycznym, zawierającym sporo słów raczej nie uwzględnianych w większości słowników, nie znalazłem ani jednego błędu, włącznie ze stroną, którą zeskanowano po skosie (choć tutaj posypał się trochę układ strony). Ogólne wrażenie psuje dość wolne działanie serwisu, choć na stronach wyświetlane były komunikaty o spowolnieniu wynikającym z dużego obciążenia serwerów.

Żeby mieć jakieś porównanie, zarejestrowałem się również w serwisie OnlineOCR. Ta strona wygląda mniej biznesowo, za to sympatyczniej.

OnlineOCR.net

OnlineOCR.net

Serwis też o wiele większe możliwości:  po pierwsze, w procesie OCR możemy wybrać jeden z 28 języków przeskanowanego tekstu. Po drugie, nie ma ograniczeń liczby stron, a jedyne ograniczenie polega na wielkości pojedynczego pliku – maks. 7 MB. Ponadto istnieje możliwość wykonania OCR tylko wybranych stron lub ich zakresu z wielostronicowego dokumentu, a także mamy do wyboru kilka formatów docelowych. Kolejną zaletą serwisu jest fakt, że dokumenty wysłane na serwer są na nim przechowywane, możemy więc w każdej chwili ponownie wykonać procedurę OCR lub ściągnąć już przygotowany plik. Samo rozpoznawanie tekstu również odbyło się bez zarzutu, choć w uzyskanym dokumencie niektóre słowa pogrubiono, a w innych zwiększono odstępy między literami. Ponieważ jednak można to naprawić kilkoma kliknięciami, nie uznałbym tego za duży problem. Serwis działał wyraźnie szybciej od konkurencji – nawet wrzucanie pliku trwało krócej.

Jeśli w przyszłości znowu dostanę zeskanowany tekst, bez wahania skorzystam z serwisu OnlineOCR.

1 ping

  1. […] do przetłumaczenia tekst na papierze? Moim zdaniem, najlepiej przeskanować i zamienić na tekst przez OCR, jeśli jednak musimy na szybko ocenić objętość tekstu do przetłumaczenia, opracowałem na […]

Leave a Reply

Your email address will not be published.