{"id":30,"date":"2009-04-07T22:19:20","date_gmt":"2009-04-07T20:19:20","guid":{"rendered":"http:\/\/hell.pl\/wasaty\/blog\/?p=30"},"modified":"2009-04-07T22:19:20","modified_gmt":"2009-04-07T20:19:20","slug":"ocr-czyli-%e2%80%9eprzesle-to-panu-faksem%e2%80%9d","status":"publish","type":"post","link":"http:\/\/wasaty.pl\/blog\/2009\/04\/07\/ocr-czyli-%e2%80%9eprzesle-to-panu-faksem%e2%80%9d\/","title":{"rendered":"OCR, czyli \u201eprze\u015bl\u0119 to panu faksem\u201d"},"content":{"rendered":"<div style=\"float: right; margin-left: 10px;\"><a href=\"https:\/\/twitter.com\/share\" class=\"twitter-share-button\" data-via=\"Wasaty\" data-count=\"vertical\" data-url=\"http:\/\/wasaty.pl\/blog\/2009\/04\/07\/ocr-czyli-%e2%80%9eprzesle-to-panu-faksem%e2%80%9d\/\">Tweet<\/a><\/div>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"alignleft size-full wp-image-86\" title=\"skaner\" src=\"http:\/\/hell.pl\/wasaty\/blog\/wp-content\/uploads\/2009\/04\/skaner.png\" alt=\"skaner\" width=\"80\" height=\"80\" \/>Wi\u0119kszo\u015b\u0107 t\u0142umacze\u0144 technicznych wykonuj\u0119 dla biur t\u0142umaczeniowych. Oczywi\u015bcie jako wykonawca dostaj\u0119 stawk\u0119 ni\u017csz\u0105, ni\u017c to, co p\u0142aci klient, ale biuro za co\u015b te pieni\u0105dze bierze. O szczeg\u00f3\u0142ach mo\u017ce kiedy indziej, tym razem ogranicz\u0119 si\u0119 do faktu, \u017ce przewa\u017cnie to biuro zajmuje si\u0119 przygotowaniem tekstu do t\u0142umaczenia. Ja dostaj\u0119 tekst, t\u0142umacz\u0119, odsy\u0142am. Nie interesuje mnie, w jakim formacie klient dostarczy\u0142 sw\u00f3j tekst, nie interesuje mnie, w jakim formacie chce go otrzyma\u0107. Niestety, zdarzaj\u0105 si\u0119 wyj\u0105tki.<!--more-->Dosta\u0142em dzi\u015b do t\u0142umaczenia teksty w plikach PDF. Niby nic, w ko\u0144cu mam bardzo dobry <a href=\"http:\/\/www.iceni.com\/gemini.htm\">program do ekstrakcji tekstu z PDF\u00f3w<\/a>. Nic z tego &#8211; pliki zawiera\u0142y obrazy z przeskanowanym tekstem. Poniewa\u017c nie kusi\u0142o mnie przepisywanie, a bez plik\u00f3w tekstowych nie spos\u00f3b skorzysta\u0107 z narz\u0119dzi CAT, nale\u017ca\u0142o wykona\u0107 OCR tekst\u00f3w.<\/p>\n<p>Z pomoc\u0105 przysz\u0142a wyczytana gdzie\u015b kiedy\u015b wzmianka o serwisie, kt\u00f3ry oferuje tego typu us\u0142ugi online. Szybkie wyszukiwanie w guglu pozwoli\u0142o znale\u017a\u0107 a\u017c dwa serwisy oferuj\u0105ce bezp\u0142atny OCR:<\/p>\n<ul>\n<li><a title=\"OCRterminal\" href=\"http:\/\/www.ocrterminal.com\/\">OCRterminal<\/a><\/li>\n<li><a title=\"OnlineOCR\" href=\"http:\/\/www.onlineocr.net\/\">OnlineOCR<\/a><\/li>\n<\/ul>\n<p>Zacz\u0105\u0142em od tego pierwszego. Po szybkiej rejestracji, podczas kt\u00f3rej dowiedzia\u0142em si\u0119, \u017ce mog\u0119 przeskanowa\u0107 30 stron dziennie, uzyska\u0142em mo\u017cliwo\u015b\u0107 uploadu pliku, a po jego zakonczeniu program oferuje mo\u017cliwo\u015b\u0107 podgl\u0105du pierwszej strony dokumentu oraz pozwala na rozpocz\u0119cie OCR lub rezygnacj\u0119. Program podaje tak\u017ce liczb\u0119 stron dokumentu oraz liczb\u0119 pozosta\u0142ych stron dziennego limitu. Samo skanowanie trwa\u0142o kilka minut (7 stron), po czym mog\u0142em ju\u017c \u015bci\u0105gn\u0105\u0107 plik w formacie .doc.<\/p>\n<p>Musz\u0119 przyzna\u0107, \u017ce jako\u015b\u0107 OCR okaza\u0142a si\u0119 bez zarzutu. W angielskim tek\u015bcie farmaceutycznym, zawieraj\u0105cym sporo s\u0142\u00f3w raczej nie uwzgl\u0119dnianych w wi\u0119kszo\u015bci s\u0142ownik\u00f3w, nie znalaz\u0142em ani jednego b\u0142\u0119du, w\u0142\u0105cznie ze stron\u0105, kt\u00f3r\u0105 zeskanowano po skosie (cho\u0107 tutaj posypa\u0142 si\u0119 troch\u0119 uk\u0142ad strony). Og\u00f3lne wra\u017cenie psuje do\u015b\u0107 wolne dzia\u0142anie serwisu, cho\u0107 na stronach wy\u015bwietlane by\u0142y komunikaty o spowolnieniu wynikaj\u0105cym z du\u017cego obci\u0105\u017cenia serwer\u00f3w.<\/p>\n<p>\u017beby mie\u0107 jakie\u015b por\u00f3wnanie, zarejestrowa\u0142em si\u0119 r\u00f3wnie\u017c w serwisie OnlineOCR. Ta strona wygl\u0105da mniej biznesowo, za to sympatyczniej.<\/p>\n<div id=\"attachment_31\" style=\"width: 560px\" class=\"wp-caption aligncenter\"><img aria-describedby=\"caption-attachment-31\" decoding=\"async\" loading=\"lazy\" class=\"size-full wp-image-31\" src=\"http:\/\/hell.pl\/wasaty\/blog\/wp-content\/uploads\/2009\/04\/ocr.png\" alt=\"OnlineOCR.net\" width=\"560\" height=\"391\" srcset=\"http:\/\/wasaty.pl\/blog\/wp-content\/uploads\/2009\/04\/ocr.png 560w, http:\/\/wasaty.pl\/blog\/wp-content\/uploads\/2009\/04\/ocr-300x209.png 300w\" sizes=\"(max-width: 560px) 100vw, 560px\" \/><p id=\"caption-attachment-31\" class=\"wp-caption-text\">OnlineOCR.net<\/p><\/div>\n<p>Serwis te\u017c o wiele wi\u0119ksze mo\u017cliwo\u015bci:\u00a0 po pierwsze, w procesie OCR mo\u017cemy wybra\u0107 jeden z 28 j\u0119zyk\u00f3w przeskanowanego tekstu. Po drugie, nie ma ogranicze\u0144 liczby stron, a jedyne ograniczenie polega na wielko\u015bci pojedynczego pliku &#8211; maks. 7 MB. Ponadto istnieje mo\u017cliwo\u015b\u0107 wykonania OCR tylko wybranych stron lub ich zakresu z wielostronicowego dokumentu, a tak\u017ce mamy do wyboru kilka format\u00f3w docelowych. Kolejn\u0105 zalet\u0105 serwisu jest fakt, \u017ce dokumenty wys\u0142ane na serwer s\u0105 na nim przechowywane, mo\u017cemy wi\u0119c w ka\u017cdej chwili ponownie wykona\u0107 procedur\u0119 OCR lub \u015bci\u0105gn\u0105\u0107 ju\u017c przygotowany plik. Samo rozpoznawanie tekstu r\u00f3wnie\u017c odby\u0142o si\u0119 bez zarzutu, cho\u0107 w uzyskanym dokumencie niekt\u00f3re s\u0142owa pogrubiono, a w innych zwi\u0119kszono odst\u0119py mi\u0119dzy literami. Poniewa\u017c jednak mo\u017cna to naprawi\u0107 kilkoma klikni\u0119ciami, nie uzna\u0142bym tego za du\u017cy problem. Serwis dzia\u0142a\u0142 wyra\u017anie szybciej od konkurencji &#8211; nawet wrzucanie pliku trwa\u0142o kr\u00f3cej.<\/p>\n<p>Je\u015bli w przysz\u0142o\u015bci znowu dostan\u0119 zeskanowany tekst, bez wahania skorzystam z serwisu OnlineOCR.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Wi\u0119kszo\u015b\u0107 t\u0142umacze\u0144 technicznych wykonuj\u0119 dla biur t\u0142umaczeniowych. Oczywi\u015bcie jako wykonawca dostaj\u0119 stawk\u0119 ni\u017csz\u0105, ni\u017c to, co p\u0142aci klient, ale biuro za co\u015b te pieni\u0105dze bierze. O szczeg\u00f3\u0142ach mo\u017ce kiedy indziej, tym razem ogranicz\u0119 si\u0119 do faktu, \u017ce przewa\u017cnie to biuro zajmuje si\u0119 przygotowaniem tekstu do t\u0142umaczenia. Ja dostaj\u0119 tekst, t\u0142umacz\u0119, odsy\u0142am. Nie interesuje mnie, w jakim formacie klient dostarczy\u0142 sw\u00f3j tekst, nie interesuje mnie, w jakim formacie chce go otrzyma\u0107. Niestety, zdarzaj\u0105 si\u0119 wyj\u0105tki.<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[3,6],"tags":[12,14,47,50],"_links":{"self":[{"href":"http:\/\/wasaty.pl\/blog\/wp-json\/wp\/v2\/posts\/30"}],"collection":[{"href":"http:\/\/wasaty.pl\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/wasaty.pl\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/wasaty.pl\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/wasaty.pl\/blog\/wp-json\/wp\/v2\/comments?post=30"}],"version-history":[{"count":0,"href":"http:\/\/wasaty.pl\/blog\/wp-json\/wp\/v2\/posts\/30\/revisions"}],"wp:attachment":[{"href":"http:\/\/wasaty.pl\/blog\/wp-json\/wp\/v2\/media?parent=30"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/wasaty.pl\/blog\/wp-json\/wp\/v2\/categories?post=30"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/wasaty.pl\/blog\/wp-json\/wp\/v2\/tags?post=30"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}