+ All Categories
Home > Documents > Cum Sa Structuram Cartile Scanate Despre DjVu

Cum Sa Structuram Cartile Scanate Despre DjVu

Date post: 14-Oct-2015
Category:
Upload: anthony-brewer
View: 72 times
Download: 11 times
Share this document with a friend
Description:
Cum Sa Structuram Cartile Scanate Despre DjVu

of 12

Transcript
  • Lecia 3Formatul DjVu

    i structurarea funcional a crilor digitalePremiz:

    O carte digital, ntruct e digital, trebuie s se bucure de toate facilitile informatizrii.

    Introducere:

    rin structurarea crilor digitale nelegem adugarea posibilitilor de navigare intern, pe vertical - arborele de coninut sau indicele, pe orizontal - motorul de cutare dup text (cu textualizarea prealabil a crii scanate), general sau dup cuvintele-cheie prestabilite. Un

    alt element de considerat mpreun cu acestea, ns cu semnificaie prevalent estetic este copertarea. PCteva cuvinte despre vehicolul acestori faciliti:

    rile scanate se deosebesc de cele tiprite (bazate pe texte culese din start la computer) prin faptul c sunt de tip grafic (imagini), exact ca i pozele foto digitale. Dei

    conin informaie textual, textul lor nu este accesibil ca atare (spre exemplu, pentru copy-paste sau pentru search). Pe lng acest disconfort funcional, crile scanate att timp ct rmn ca imagini (sau ca PDF) au i un dezavantaj fizic foarte mare, fiind incomode pentru lectur (rsfoirea lent) i pentru depozitare (greutate enorm). O metod eficient pentru depsirea acestor neajunsuri const n utilizarea formatului de compresie DjVu.

    C Anexa 1 despre secretul formatului DjVu i analiza lui comparativ cu PDF

    Compresia DjVu :

    n rezultatul prelucrrii scanatelor n Scan Kromsator 5.91 am obinut mapa out n acelai sediu ca i fiierul surs TIF G4Fax. Pentru compresia DjVu folosim programul deja amintit

    DjVu Small 0.3.3 dup metoda descris (vezi Lecia 1), schimbnd doar profilul n user b/w 300

    Anexa 2, n care gsii i un truc pentru reducerea dimensiunii finale a fiierului DjVu cu pn la 25%

    NOT: Toate etapele ulerioare se pot face ntr-un timp secund.

    Copertarea

    n moment cu valoare preponderent estetic l constituie adugarea copertei originale color la cartea comprimat DjVu. Dincolo de frumusee, copertarea ofer i avantajul

    de a putea lesne repera cartea digital n regimul thumbnails din Explorer graie unicitii copertelor n lumea livresc (vezi schema de mai jos).

    U Anexa 3, despre pregtirea copertei i unirea ei la DjVu principal

  • Schem: Fiierele DjVu n Windows Explorer

    NOT: Pentru a putea previzualiza fiierele DjVu n regim thumbnails instalai programul gratuit DjVu Shell Extension.

    Indexarea i textualizarea:

    dugarea stratului de text cules la imaginea DjVu corespunztoare (textualizare), ca i a arborelui de coninut (indexare) sunt etape ultime, textualizarea de

    regul, precednd indexarea. Vor fi tratate n leciile urmtoare. A Anexa 4, pentru descoperirea rezultatului finaln loc de ncheiere:

    n lecia precedent am promis s tratm mai ndeaproape subiectul restaurrii crilor scanate de proast calitate - nelegnd prin ultima att neoformarea estetic a coninutului, ct i defectele de lizibilitate. nrudit cu restaurarea este aa-zisa optimizare grafic, la care vom face apel ns n

    situaiile normale. n exemplul ce urmeaz vom trata un caz comun de compresie a imaginilor de tip gri, care la bitonalizarea normal rezult aproape ntotdeauna defectuoase:

    (a) original (b) bitonalizare normal (c) bitonalizare optimizat

  • Procedeu: bitonalizarea optimizatDjVu Small 0.3.3 profilul photo 300 DjVu Ocr 2.4 (+ bitonal) BMP negru-alb

    1. Comprimai repetent imaginile originale ale paginilor defectuoase n DjVu cu profilul photo 300 (DjVu Small 0.3.3)

    NOT: Dac fiierul surs este PDF, putei salta etapa decomprimnd deodat imaginile individuate n format bmp, cu ajutorul STDU Viewer, versiunea 1.5.330. Pentru o calitate mai bun, putei contrasta noile imagini cu ajutorul lui FastStone Photo Resizer, avnd grij ca la ieire s le salvai tot n format bmp. Necesit timp (350 pagini = 1-2 ore) i spaiu (1 pagin = 10 Mb)!

    2. Decomprimai DjVu n format bmp cu ajutorul lui DjVu Decoder din cadrul lui DjVu Ocr 2.4, selectnd i opiunea pentru bitonalizare: To bitonal (pe desen vezi e)

    3. Recompresia final dup modalitatea obinuit pentru crile negru-alb (profil b/w 300)

    NOT: Acest algoritm poate fi angajat i ca procedeu de baz pentru bitonalizare dac se face abstracie de timpul i de spaiul necesar.

  • ANEXA

    1*secretul

    DJVU

    Anexa 1: Secretul formatului DjVu (napoi la text):

    PDF vs DjVu

    ata foarte mic de compresie a scanatelor atunci cnd sunt salvate ca PDF, se explic prin principiul pe care se bazeaz i anume, pe identificarea repetiiei caracterelor digitale litere, cifre etc mecanism, care n faa informaiei textuale non-textuale

    a imaginilor scanate se adeverete cu totul neputincios. n aceste condiii compresia devine liniar i dezavantajoas din punct de vedere economic.

    R Pe de alt parte, mecanismul pe care se bizuie codificarea DjVu este descompunerea imaginilor pe straturi cu aplicarea consecutiv a diverselor metode de compresie pentru fiecare din ele.

    Principiul formatului DjVu:

    onst n separarea figurii de fond: elementele grafice cu contururi nete (text i desene) formeaz stratul mask/stencil, care mpreun cu informaia despre culori alctuiete aa-zisul strat superficial foreground. Toate celelalte elemente,

    mai mult sau mai puin estompate, formeaz aa-zisul strat profund background (vezi schemele urmtoare).

    CIat i secretul. Stratul superficial, ca purttor de baz al informaiei utile lizibile, este comprimat cu rezoluie 100%, iar cel profund dup caz, n funcie de profilul ales (de la 0 - n bitonal, la 100% n photo). n toate cazurile informaia util trebuie s rmn clar i distinct (stratul superficial = text; stratul profund = foto, vezi schema de mai jos).

    Schem: DjVu, strat cu strat

    (a) imaginea deplin (color) (b) stratul masc (stencil)

  • ANEXA

    1*secretul

    DJVU

    (c) stratul profund (background) (d) stratul superficial (foreground)

    Un truc util:

    u este greu s v dai seama cum stratul superficial (foreground) conine n sine toat informaia util. Vestea bun e c acesta poate fi separat de celelalte i salvat de sinestttor. n afar de ctigul evident n calitate, acest truc ofer i un

    semnificativ avantaj economic ntr-adevr, nlturarea stratului profund background poate reduce cu cca 15-20% greutatea fiierului!

    NProcedeu: separarea DjVu n straturi

    Prima metod DjView 4.3 TIF multipaginat (= 1 fiier) A doua metod DjVu Ocr 2.4 TIF unu-per-pagin (= multe fiiere)

    PRIMA METOD:

    zolarea straturilor este posibil n cadrul programului deja cunoscut nou, DjView, care are i avantajul de a putea vizualiza n timp real fiecare

    strat n parte. Izolarea unui strat se face simplu:I

    1. Bifai stratul dorit, accesnd meniul: View-->Display, n timp ce vizualizai cartea DjVu

    2. Efectuai decodificarea n TIF dup procedeul cunoscut (indicat n Lecia 1, la capitolul despre bitonalizare).

  • ANEXA

    1*secretul

    DJVU

    Atenie: la salvarea color avei grij s debifai n prealabil csua Force G4Fax Compress, altfel informaia despre culori va fi automat omis!

    A DOUA METOD:

    celai efect poate fi obinut cu ajutorul unui alt program gratuit la care vom apela la etapa de textualizare a DjVu DjVu OCR 2.4:A

    1. Pe pagina principal selectai DjVu Decoder:

    2. Pe noua pagin deschis:

    2 - adugai fiierul DjVu n lista de alturi3 - selectai mapa pentru salvarea rezultatului4 - alegei formatul grafic la ieire 5 - indicai diapazonul de pagini spre decodificare6 - alegei stratul care dorii s-l izolai7 - n cazul imaginilor negru-alb, bifai pentru bitonalizare automat8 - dai la execuie

    NOT: Spre deosebire de programul DjView, DjVu Ocr salveaz fiierele TIF unu per pagin, deci la ieire vei avea tot attea fiiere ct i pagini n carte. Dac planificai convertarea n PDF recomand folosirea primei metode (pentru c produce un fiier TIF unic, multipaginat).

    Atenie! Exist un risc de a pierde din informaia util dac ea este omis n stratul salvat! Aceast eroare poate fi evitat previzualiznd stratul de nlturat nainte de tergerea lui definitiv, pentru excluderea oricror elemente utile (litere, linii etc) precipitate din greeal n cursul codificrii. Spre ex., la salvarea stratului foreground se va previzualiza stratul profund background i viceversa.

  • ANEXA

    2

    *compresia

    DJVU

    Anexa 2: Compresia DjVu (napoi la text)

    Procedeu: compresia DjVu negru-alb

    DjVu Small 0.3.3 profil user b/w 300 ( +/- trucuri) fiier DjVu negru-alb

    1. Deschidei fiierele sau mapa cu imagini2. Indicai mapa pentru salvarea rezultatului

    3. Bifai operaiunea

    4. Alegei profilul

    *5. Trecei la opiunile avansate

    6. Alegei tabla: Document->DjVu (2)

    7. Bifai csua: Text quality, alegei din lista regimul lossy

    8. Bifai csua: Pages per dict, indicai un numr

    9. Trecei la fereastra principal

    10. Dai la execuie tastnd butonul Convert

    NOT: Opiunile 5-8 (trucuri facultative) asigur un ctig n greutate de pn la 25% (cu un efect neglijabil asupra calitii imaginilor, dar cu o posibil ncetinire a procesului de lecturare a crii astfel comprimate)

  • ANEXA

    3

    *copertarea

    Anexa 3: Copertarea color a crilor DjVu (napoi la text)

    Procedeu: copertarea crilor DjVu

    Scanare n regim color (true color) Fast Stone Photo Resizer 2.8 DjVu Small 0.3.3 (Photo 300) DjVu Merger

    1. Scanarea repetat n culori:

    canarea obinuit a crilor nu se face n culori (ci n grayscale), pe de alt parte, coperta este aproape ntotdeauna colorat. Prin urmare, se vor scana n prealabil, i separat de restul crii, cele dou coperte (fronte i retro) n regim color (true color

    sau milions of colors). Se va avea grij de a poziiona perfect cartea pe geamul scanner-ului i de a o decupa imediat, n timpul scanrii (se va salva n JPEG).

    S2. Redimensionarea:

    maginile copertelor se vor adapta dimensional dup valorile nlime-lime din cartea DjVu gata comprimat (valorile pot fi citite n STDU Viewer, intrnd n meniul File--> Properties-->panoul List pages). Recomandabil este programul gratuit Fast Stone

    Photo Resizer 2.8, pe care l vom folosi nu rareori n continuare. I

  • ANEXA

    3

    *copertarea

    1 - deschidei mapa cu imaginile pentru modificare2 - adugai-le n lista de lucru3 - indicai formatul la ieire i mapa pentru salvarea rezultatului4 - bifai csua Use Advanced Options i tastai butonul corespunztor

    5 - activai tabla Resize bifnd csua6 - bifai n dreptul unitilor de msur In Pixels7 - indicai valorile exacte pentru nlime (Height) i lime (Width), identice cu cele din imaginile gata din cartea comprimat8 - alegei metoda de compresie Bicubic9 - dezactivai opiunea pentru pstrarea proporiilor la redimensionare10 - salvai modificrile i trecei la fereastra principal.

    Dai la execuie tastnd butonul Convert.

    3. Compresia DjVu:

    entru compresie folosim DjVu Small 0.3.3 n regim Photo 300. Putei apela la un truc (descris n continuare) pentru a controla greutatea fiierului rezultat (n mod normal n regim Photo - comprimat la o rat joas). P

  • ANEXA

    3

    *copertarea

    Schem: Un truc pentru reducerea greutii unui fiier tip foto

    1. Accesnd opiunile avansate, intrai n tabla Document->DjVu (2) i activai csua Sizes.

    2. n drept cu ea indicai, n ordine cresctoare, valorile n bytes ale imaginii DjVu aa cum dorii s rezulte dup compresie.

    n exemplul din schem: 20000+40000+150000 = 210000 bytes = 205 Kb, adic fiierul DjVu va avea o greutate de cca 205 Kb). Aceste valori sunt arbitrare i se vor selecta n funcie de calitatea final dorit.

    Atenie: Nu uitai s dezactivai manual csua Sizes dup utilizare, mai ales dac planificai o compresie DjVu n regim Photo ntr-un moment secund.

    4. Anexarea copertei la cartea DjVu:

    operta astfel comprimat poate fi anexat la fiierul principal folosind programul DjVu merger. Lucreaz fr interfa, dup procedeul ce urmeaz:C

    1. Plasai cele dou fiiere DjVu (coperta i cartea) n mapa cu programul.2. Redenumii fiierele: pentru copert schimbai n 0000.djvu, pentru cartea de baz

    n 0001.djvu

    NOT: La unirea mai multor pri cu ajutorul programului DjVu merger, redenumii fiecare fiier n ordine succesiv, dup cum urmeaz: coperta = 0000.djvu; blocul de pagini 1-200 = 0001.djvu; blocul 201-400 = 0002.djvu etc.

    3. Indicai diapazonul exact de pagini n fiierul list.txt din aceiai map4. Dai la execuie programul merger5. Fiierul Book.djvu din aceiai map este cel rezultat dup unire.

    Atenie: Programul prezint un defect de funcionare n cazul fiierelor mai mari de 2-3 megabaii n acest caz, putei scinda n prealabil fiierul de baz n buci convenabile (folosind programul DjView vezi n continuare).

  • ANEXA

    3

    *copertarea

    Schem: Scindarea n blocuri a fiierelor DjVu cu ajutorul programului DjView 4.3

    1. Accesai meniul: File--> Save as... Indicai diapazonul de pagini Pages pentru fiecare bloc de scindat: de ex. 1-200, 201-400 etc.

    2. Alegei formatul: Bundled DjVu Document.

    3. Indicai mapa pentru salvarea rezultatului.

    4. Dai la execuie (Ok).

    NOT: Pentru a nu face confuzie n privina diapazonului, recomand s numii fiecare bloc salvat cu numrul de la...pn la corespunztor: de ex., 1-200.djvu, 201-400.djvu etc.

  • ANEXA

    4*finalizarea

    Anexa 4: Indexarea i textualizarea, DjView 4.3 (napoi la text)

    1 - arborele crii (outline - n DjView 4.3, content - n STDU Viewer)2 - motorul de cutare (find - n DjView 4.3, search - n STDU Viewer)


Recommended