Ispravljanje skenova knjige

1

Ispravljanje skenova knjige

offline
  • Pridružio: 19 Feb 2007
  • Poruke: 1833

Imam skeniranu knjigu u PDF formatu. Na skenovima su neke stranice deformisane pa na tim dijelovima FIND opcija ne prepoznaje traženu riječ. Ima li neki program kojim bih ispravio te stranice?



Registruj se da bi učestvovao u diskusiji. Registrovanim korisnicima se NE prikazuju reklame unutar poruka.
offline
  • m4rk0  Male
  • Administrator
  • Administrator tech foruma
  • Marko Vasić
  • Gladijator - Maximus Decimus Meridius
  • Pridružio: 14 Jan 2005
  • Poruke: 15766
  • Gde živiš: Majur (Colosseum)

Napisano: 17 Maj 2011 7:27

Ja bih to nekim ocr programom (na pr ABBY Finereader) prebacio u tekstualni format i tada bi sve doslo na svoje mesto. Posle bih po potrebi vratio u pdf.

Dopuna: 17 Maj 2011 7:28

Mozes i da pokusas u adobe acrobat u meniju izaberes Document -> Optimize scanned pdf



offline
  • Pridružio: 19 Feb 2007
  • Poruke: 1833

Najprije sam izvorni PDF fajl programom Abbyy PDF Transformer obradio kako bi bio čitljiv (searchable). Primjećujem, dok listam stranice, da se najprije za trenutek kao pozadina pojavi tekst koji je sličan tekstu nakon OCR obrade. Pretpostavljam da ga ja Abbyy prethodno obradio u smislu prepoznavanja teksta i napravio dva "sloja" i da se pretraga vrši na donjem, sakrivenom, sloju. Prepoznavanje zadate riječi ide normalno na ravnim redovima, ali ne i na kosim, deformisanim. Dakle, ni Finereader ne može da prepozna tekst u kosim redovima.
Evo kako Finereader prepoznaje skenirani tekst:
https://www.mycity.rs/must-login.png

offline
  • Pridružio: 12 Sep 2003
  • Poruke: 2839
  • Gde živiš: Kotor

Ovde je nažalost i sama štampa prilično nepodesna za OCR, a deformisanost slova je na kraju dovela do toga da prepoznavanje teksta ne funkcioniše tako da rezultat može biti upotrebljiv.
Ako ne postoji mogućnost ponovnog skeniranja, što bi bilo najelegantnije rešenje, a kao najmanje zahtevnu alternativu vidim samo prekucavanje teksta. Ako se radi o ove dve stranice, to je par minuta, brže i efikasnije od bilo kakvog igranja po Photoshopu i dodatnog sredjivanja dokumenta.

offline
  • Pridružio: 19 Feb 2007
  • Poruke: 1833

teacher ::...Ako ne postoji mogućnost ponovnog skeniranja, što bi bilo najelegantnije rešenje, a kao najmanje zahtevnu alternativu vidim samo prekucavanje teksta. Ako se radi o ove dve stranice, to je par minuta, brže i efikasnije od bilo kakvog igranja po Photoshopu i dodatnog sredjivanja dokumenta.
Radi se o 9 tomova sa po 500-600 stranica koje treba pretražiti i naći određene podatke.

offline
  • higuy  Male
  • Legendarni građanin
  • penzionisani tabijatlija
  • crni hronicar
  • Pridružio: 21 Apr 2010
  • Poruke: 8565
  • Gde živiš: Dubocica

Ovaj problem lici na onaj sa sajtovima koji koriste waving captcha. Resenje bi trebalo da ide u tom smeru.

http://www.google.com/recaptcha

offline
  • bocke  Male
  • Moderator foruma
  • Glavni moderator Linux foruma
  • Veliki Pingvin
  • Guru
  • Pridružio: 16 Dec 2005
  • Poruke: 12520
  • Gde živiš: Južni pol

Napisano: 17 Maj 2011 14:36

A kako ste probali skeniranje stranica? Obe strane istovremeno, ili jednu po jednu? Da li postoji mogućnost ponovnog skeniranja ili je sav materijal već skeniran?

Finereader bi trebalo da ima mogućnosti za ispravljanje zakrivljenosti teksta, ali te mogućnosti su ograničene. Treba se truditi da stranice budu što ravnije. To bi značilo lagano pritisnuti knjigu pri skeniranju kako bi savijena stranica što bolje prionula na površinu za skeniranje. Ukoliko je u pitanju fotografija, onda je to već malo problem. Vrlo je teško napraviti savršeno "ravnu" fotografiju strana knjige.

Ono što je bitno je da rezolucija bude što veća i da pri skeniranju treba probati sa skeniranjem strane po strane. Ispravljanje zakrivljenog teksta je možda moguće u editorima grafike. Ali su i tu mogućnosti prilično ograničene.

Dopuna: 17 Maj 2011 14:39

higuy ::Ovaj problem lici na onaj sa sajtovima koji koriste waving captcha. Resenje bi trebalo da ide u tom smeru.

http://www.google.com/recaptcha


Misliš na tehnologiju prepoznavanja teksta iz recaptcha boksova?

offline
  • Pridružio: 19 Feb 2007
  • Poruke: 1833

Ja bih znao kako da skeniram, ali ove knjige su već skenirane i nemam originale, a i da imam suviše bi bilo posla da se ponovo skeniraju. Poblem je kako pretražiti ove skenove prema zadatom ključu.

offline
  • higuy  Male
  • Legendarni građanin
  • penzionisani tabijatlija
  • crni hronicar
  • Pridružio: 21 Apr 2010
  • Poruke: 8565
  • Gde živiš: Dubocica

bocke ::

Misliš na tehnologiju prepoznavanja teksta iz recaptcha boksova?


Da, tu bi moglo da lezi resenje ovakvog problema.

offline
  • Pridružio: 19 Feb 2007
  • Poruke: 1833

Koliko vidim to je onlajn srevis. Ne mogu da vidim program koji bi se skinuo i instalisao na kompjuter.

Ko je trenutno na forumu
 

Ukupno su 1162 korisnika na forumu :: 52 registrovanih, 7 sakrivenih i 1103 gosta   ::   [ Administrator ] [ Supermoderator ] [ Moderator ] :: Detaljnije

Najviše korisnika na forumu ikad bilo je 3466 - dana 01 Jun 2021 17:07

Korisnici koji su trenutno na forumu:
Korisnici trenutno na forumu: 357magnum, A.R.Chafee.Jr., babaroga, bobomicek, bokisha253, Boris90, braca57, cavatina, cifra, darcaud, DENIRO, djolew, djuradj, Excalibur13, havoc995, ikan, Insan, ivan1973, ivica976, Krusarac, Kubovac, kybonacci, madza, Mediator, milenko crazy north, minmatar34957, mnn2, mrvica78, nemkea71, Neutral-M, novator, Panter, Parker, pein, powSrb, Ripanjac, SD izvidjac, sevenino, Shinobi, skvara, srbijaiznadsvega, Stefan M, strelac07, Tandrkalo, tubular, Valter071, vathra, Vlad000, VladaKG1980, voja64, zhuki8, zziko