Olgugi, et Internet on noor, on sinna tekkinud suhteliselt lühikese ajaga tohutu hulk informatsiooni, mille hulk järjest kasvab. Selles kõiges on keeruline orienteeruda juba koguse tõttu, aga segadust lisab info talletamiseks mõeldud vorminguterohkus. Neist teemegi ülevaate.
Kuna Internet on hiiglaslik arvutivõrk, paikneb informatsioon seal failide kujul nagu meie kõigi arvuteis. Kogu info on failid, teatud kitsamat osa neist nimetatakse dokumendifailideks. Kõige madalamal tasemel on kogu dokumendis sisalduv info vaid nullide ja ühtede jadana. Kõrgemal tasemel on aga formaadid tunduvalt keerukamad. Neid võib lahterdada paljude kriteeriumite alusel, millest allpool pikemalt. Sobiva vormingu valik sõltub sellest, kuivõrd lähevad selle omadused kokku meie esitatud nõuetega dokumendi loomisele, struktuurile, taasesitamisele, transpordile, salvestamisele ja säilitamisele.
Avatud ja suletud
Suletud formaat tähendab, et selle spetsifikatsioonid on mingi firma, tavaliselt tarkvaratootja, loodud ja neid ei avalikustata kolmandatele pooltele. Või kui avalikustatakse, siis erilepingute alusel, mis ei luba infot avalikkusele levitada. Pahatihti kasutavad samanimelise tarkvara erinevad versioonid ka erinevaid dokumendiformaate. Näiteks viiakse uuema tarkvara loodavasse dokumenti muudatused, mis takistavad seda avamast vanematel sama programmi versioonidel, või siis avatakse dokument vigadega. Mõnikord on sellised muudatused tõesti innovatiivsed ja vajalikud, kuid enamasti sunnitakse kasutajat ostma uuemat versiooni tarkvarast. Head (õigemini halvad) näited on Microsoft Office, CorelDraw ja veel paljud teised rakendused.
Avatud formaat tähendab, et dokumendi struktruur on vastavuses mitmete firmade ja avalike organisatsioonide koostöös valminud standardiga, spetsifikatsioon on kõigile soovijaile kättesaadav. Tähelepanu tuleb siin juhtida asjaolule, et kuigi paljud programmid võimaldavad näiliselt eksportida avatud formaati, osutub see probleemseks, sest tarkvaratootja on huvitatud oma kinnise vormingu levikust ega ole loonud korrektselt töötavat ekspordifiltrit avatud formaatidele.
Internetis kasutatavate dokumendistandarditega tegeleb W3C (World Wide Web Consortsium). Näiteks kõigile tuntud HTML–i eksportimine on küll paljude rakenduste ekspordifiltrite valikutes olemas, kuid tegelikult ei pruugi tulemus standardile vastata. Ühtegi dokumenti, mis ei vasta täielikult vastava standardi nõuetele, ei saa pidada standardseks. Nii satubki pahaaimamatu kasutaja, kes loob näiteks Microsoft Wordis veebi ülespanemiseks dokumenti, olukorda, kus väidetav HTML dokument ei vasta ühelegi HTML–i versioonile.
Formaadi valik
See võib näida esmapilgul lihtne, kuid tegelikult ei ole. Arvestada tuleb paljude faktoritega. Probleem peitub küllaltki vastuoluliste nõuete esitamises formaadile ühelt poolt võimaluste ja teiselt poolt kulukuse (nii aja– kui rahakulu) / avatuse osas. Pole olemas universaalset, igas olukorras ja kõigeks sobivat lahendust, kuid ometi tasub kaaluda mitmeid võimalikke variante hilisemate ebameeldivate üllatuste vältimiseks.
Lihtsustatult võiks öelda, et dokumendiformaat tuleb valida rakenduse disaini ja dokumendiformaadi võimaluste kokkulangemise järgi. Kuid selline lähenemine on ehk primitiivne ega arvesta kõigi tehniliste–majanduslike parameetritega. Järgnevalt siis veidi pikemalt.
Masinloetavus
Kõik elektroonilised dokumendid on arvutis loetavad, aga selle artikli raames mõistetakse masinloetavust arvuti võimena ära tunda teksti lisatöötluseta. Muidugi on võimalik suvalist bittrastrit, milles on punktide kujul tekstiline informatsioon, töödelda OCR (Optical Caracter Recognition) tarkvaraga, mille tulemusena saavutatakse masinloetavus. Kuid OCR tarkvarata pole see võimalik ja seetõttu ei peeta sellist formaati masinloetavaks.
Masinloetavus on väga oluline omadus, kui dokumendi sisu on vaja indekseerida, teostada täisteksti otsingut, kasutada dokumenti teiste tekstitöötlusvahenditega jne.
- Kas rakenduses peab saama otsida dokumendi sisu?
- Kas on vajalik, et skaneeritud materjal oleks masinloetav?
Mitmekeelsete kirjamärkide esitus
See omadus näitab formaadi võimekust mitmekeelsete kirjamärkidega hakkama saada. Näiteks ladina tähestik ja kirillitsa võiks olla Eesti asukohta arvestades olulised märgistikud, millega arvestada. Lisaks muidugi keeltes esinevad erimärgid ja tähistused. See omadus tähistab dokumendi toetust rahvusvahelistele masinloetavaile märgikoodidele nagu Unicode ja samuti suutlikkust esitada inimloetavaid märke ekraanil ja paberil. Seetõttu käib näiteks bittraster graafika alla, kuna suudab esitada kõikvõimalike märke dokumendilt, millelt on skaneeritud, mitmekeelsete kirjamärkide toetusega.
- Mis keeles materjalid on?
- Mis skriptides võivad materjalid esineda?
- Kas rakendus nõuab dokumentide esitlust ka keeltes, mis ei põhine ladina tähestikul?
Laotuse säilitamine
Hinnatakse vormingu suutlikkust säilitada originaaldokumendi laotus. Mõned säilitavad laotuse täielikult, mõned osaliselt, mõned üldse mitte. Näiteks paberilt skaneeritud bittraster teeb kujutisest täieliku koopia, kuid lastes sama bittrastri läbi OCR tarkvara ja konvertides ASCII tekstifaili, kaob võime esialgset laotust täielikult säilitada. Teine hea näide on dokumendid, mis tehakse mõne DTP–ga (Desktop Publishing Software) või kontoritarkvarapakettidesse kuuluva tekstiredaktoriga (MS Word, OpenOffice.org Writer jpt). Kui sellise keeruka laotusega dokumendid konverditakse näiteks HTML–i, ei säili kogu laotus, vaid ainult osaline kuju algsest. Veel võivad erinevad veebilehitsejad seda HTML–lehte erinevalt tõlgendada ja kuigi info säilib, ei säili täielikult kujundus.
- Kas originaallaotus on oluline või piisab sisule ligipääsust?
- Kas laotus peab säilima täielikult?
- Kas mitte–elektroonilise originaali välimuse edasiandmine on oluline (näiteks ajalooliste skaneeritud pabermaterjalide säilitamisel)?
Redigeeritavus
Mõned vormingud on redigeeritavad ja teised mitte. Õieti pole olemas mitteredigeeritavaid, kuid mõned vajavad ebatavalisi või keerukaid võtteid. Neid dokumente loetaksegi mitteredigeeritavateks.
Sageli piisab B2B (Business to Business) ning B2C (Business to Consumer) suhetes ühepoolselt redigeeritavatest dokumentidest ja paljudel juhtudel on kasulik vahetada just neid, vähendamaks võimalusi dokumendi muutmiseks nii juhuslikult kui pahatahtlikult.
- Kas dokumendi sisu peab olema muudetav?
Faili suurus
Sama sisuga, kuid eri formaatides dokumendid võivad olla oluliselt erineva suurusega. Näiteks üks skaneeritud lehekülg TIFF teksti nõuab umbes 706 KB, PDF–ina aga vaid 76 KB.
Faili suurusel on oluline mõju. Näiteks veebilehele ülespandu salvestamiseks kuluv kettamaht serveris või allalaadimiseks kuluv aeg ja võrgu läbilaskevõime. Kuigi netiühendused on järjest kiiremaks muutunud ja salvestusühiku hind järjest kahanenud, tuleb arvestada sellega, et enamusel e–posti serveritel on kirjamanuse suuruse piirang, mistõttu võib liigsuure dokumendi edastamine e–posti kaudu hoopis võimatuks osutuda.
- Mis ressursse saab failide salvestamiseks kasutada?
- Kui kiire on võrguühendus?
- Kui kiire on sihtgrupi võrguühendus?
- Kui suures koguses dokumente on vaja arhiveerida ja kas arhiividele ligipääsetavus sõltub nende suurusest?
Mitme lehekülje toetus
See iseloomustab dokumendivormingu võimet kõiki „lehekülgi” ühes failis hoida. Kui skaneerida näiteks kümneleheline tekstidokument PNG kujul arvutisse, saame tulemuseks kümme faili.
Nende haldamine–organiseerimine on küllaltki ebamugav ja mitte ülevaatlik. See raskendab arhiveerimist, haldust ja üle võrgu liigutamist. Erinevad failid tuleb koos hoida ja nende järjekorda kuidagi tähistada, välja printimiseks või vaatamiseks tuleb kõik eraldi avada.
- Kuidas kasutaja tahab dokumenti kasutada?
- Kas ta on valmis otsima kokku dokumendi osi, neid eraldi printima kui dokument koosneb paljudest komponentidest (näiteks HTML puhul)?
- Kas kasutaja soovib alla laadida suurt, mitmelehelist dokumenti?
Struktureeritus
Struktureeritus tähendab, et dokumendiformaat võimaldab määratleda elemente: pealkirju, sektsioone, päiseid jms. Näiteks XML ja SGML sunnivad sisu jaotama struktuurselt. Selline tegevus on reeglina aega ja oskusi nõudev, sellest tulenevalt küllaltki kulukas.
- Kas tavaline tekstiotsing dokumendi piires pole piisav?
- Kas on tingimata vajalik, et teatud dokumenti saaks elementide järgi otsida?
- Kas dokumendis olevat infot soovitakse kasutada ka teistes dokumentides?
- Kas dokumente uuendatakse sageli?
- Kas dokument on mahukas ja keeruka struktuuriga?
- Kas dokumenti loovad mitmed autorid?
- Kas dokument peab olema kasutatav väga erinevates rakendustes?
Multimeedia
Multimeediaformaadid toetavad rohkem kui ühte meediumi tüüpi. Tüüpiliselt teksti, graafikat, audiot ja videot. Mõned toetavad mitmeid tüüpe, teised mitte.
- Kas tegemist on multimeediamaterjalidega?
- Kas materjali peab esitama integreeritult?
Toetus linkidele
Lingid ehk URL–id (Uniform Resource Locator) viitavad resurssidele, loovad liitehitusega struktuure, lisavad dokumendile viitade kaudu multimeediat või teisi dokumente jne. Suuremate dokumentide puhul on oluline ka dokumendisisene linkide toetus. See võimaldab teatud interaktiivsust, kus kasutaja valib omale sobivad ja jõuab täpselt temale sobiva tulemuseni.
- Kas interaktiivsus dokumentides on vajalik?
- Kas kasutajad peavad saama täita vorme, liikuda dokumendilt dokumendile, valida alternatiivide vahel jms?
Ekraanil esitatavus
tähendab põhiliselt seda, kui mugav on dokumenti arvutiekraanilt lugeda. Kuigi kõik elektroonilised dokumendid on kuvatavad, pole siiski mitte kõik selleks võrdselt mugavad ja efektiivsed. Üldiselt ei meeldi kasutajale pikki tekste ekraanilt lugeda, nad pigem loevad lühikese teksti ja siis navigeerivad järgmisele tekstile või sama teksti järgmisele lõigule lähtudes hetkel kuvatavast.
- Kas dokumente loetakse põhiliselt kuvarilt?
- Kas dokumendid on veebilehed, mida tavaliselt ei prindita?
Prinditavus
iseloomustab, kui hästi või lihtsalt on formaat prinditav. Enamasti prinditakse vaid dokumente, mida tahetakse säilitada või millega soovitakse põhjalikumalt tutvuda. Kiiresti olulisust kaotavaid dokumente nagu uudised ja reklaami reeglina ei prindita ja seega pole nende koosteformaadi puhul hea prinditavus oluline.
Mõningatel juhtudel on aga prinditavus väga oluline — näiteks arvete, lepingute, saatelehtede ja muude oluliste dokumentide puhul.
Arvutiekraanil piisava kvaliteediga esitatav ei pruugi olla piisava kvaliteediga, et paberile jõuda. Probleemiks võivad olla värvikvaliteet, täpsus ja resolutsioon. Sel puhul tehakse dokumendist mitu versiooni — üks ekraanile ja teine printimiseks. Hea näide mitme versiooni vajalikkusest on digifotograafia, kus originaali hoitakse RAW või TIFF kujul ja veebi üles riputamiseks kasutatakse vähendatud resolutsiooniga, kadudega pakitud JPEG formaati.
See probleem esineb põhiliselt rastergraafika puhul (vektorgraafikat ja teksti eriti ei puuduta), tekstidokumentide printimisel on pigem probleem liigendatusest tulenevad raskused. Teatud määral on ekraanil esitatavus ja prinditavus omavahel vastuolus.
- Kas on vaja printida?
- Kas soovitakse printida kogu dokumenti või osa sellest?
Kättesaadavus otsingumootoritele
Tänapäeval ei saa keegi üle ega ümber Internetist. See on suur ja lai, info leidmine otsingumootorite abita oleks lootusetu, need aga ei indekseeri kõikides vormingutes materjale.
Eri otsimootorid on erineva võimekusega. Näiteks Google, mida on nimetatud ka kõigi otsingumootorite emaks, indekseerib lisaks HTML ja XML failidele ka DOC ja PDF faile. Mitte ükski mootor ei suuda indekseerida kõikide dokumentide sisu, mis veebiavarustesse üles pandud, ja seega tuleb veebi hoolikalt valida formaati, et oluliseks peetavad mootorid selle dokumendi sisust otsida oskaksid. Muidugi ei ole otsingumootorite eelistused midagi igavest ja muutuvad sõltuvalt sellest, mis dokumendiformaadid parasjagu levinud on.
Kas dokumentides sisalduvad materjalid peaksid olema kättesaadavad otsingumootorite kaudu?
Kas kasutatavad formaadid on indekseeritavad otsingumootorites?
Ressursikulu
Igasuguse töö ja tegevuse jaoks kulutatakse teatud resursse, nii on ka eri kujul dokumentide loomine eri kuluga.
Sõltuvalt konkreetsest formaadist võib selle loomiseks kasutatav tarkvara ulatuda väga lihtsatest tekstiredaktoritest HTML–i kodeerimiseks väga keerukate SGML dokumentide haldamise vahenditeni.
- Milliseid vahendeid on vaja konkreetse dokumendiformaadi tekitamiseks?
- Milline on alusplatvormi infrastruktuuri suutlikkus (dokumendi salvestus, säilitus, indekseerimine, haldus, varundus)?
Ettevalmistuse keerukus
sõltub samuti formaadist ja sihtgrupist. Näiteks suhteliselt keeruka laotuse ja struktuuriga tekstidokumentidest PDF–ide tegemine võib olla vaid ühe klahvivajutuse küsimus, samas XML ja SGML puhul tähendab see manuskäskude aeganõudvat kirjutamist.
- Kui keerukas ja aeganõudev on dokumendi vastavasse vormingusse panemine?
Töötajate oskused ja/või treening
Need on sageli enim alahinnatud rakenduste planeerimisel. Siinkohal on oluline ka töötaja võimekus uute teadmiste ja oskuste omandamisel, isiksuse osa, mida on praktiliselt võimatu õppida. Keegi ei oska kunagi kõike ja ümberõppimine toob alati vaeva ja kulutustega.
- Milliseid erilisi oskusi on vaja konkreetses vormingus dokumendi loomiseks ja haldamiseks?
- Palju on töötajate hulgas neid, kellel juba on sellised oskused?
- Kas töötajaid saab koolitada või tuleb selleks tööks osta teenust?
Levik
Viimane, kuid samuti oluline omadus on formaadi levik, kasutatavus. Kuivõrd teised seda kasutavad ja kuivõrd on levinud rakendused vastava dokumendi haldamiseks? Kas see on kinnine või avatud formaat? Kui jah, siis kas näiteks kümne või kahekümne aasta pärast saab selles formaadis dokumente veel avada, printida, töödelda. Kui, siis millisel määral?
Hetkel odavaim ja mugavaim võimalus ei pruugi pikemas ajavahemikus seda olla. Eriti just pikaajalisele ja laia kasutajabaasiga dokumentide arhiveerimise puhul on formaadi levik ja edaspidine kasutatavus äärmiselt olulised. Rolli omab ka ettevõtteväline suhtlus: peab arvestama, millised rakendusprogrammid on levinud, millised vabalt lisakulutusteta kättesaadavad. Hoolimata mingi konkreetse kommertstarkvara paketi suhteliselt laiast levikust ei saa eeldada, et teisel poolel see olemas on.
- Kui laialt on formaat levinud?
- Paljud rakendusprogrammid seda toetavad?
- Kas see on de facto standard?
- Kas seda saab asendada de jure standardiga?
- Kas tarkvara, millega selliseid dokumente vaadatakse ja töödeldakse, on vabalt saadaval?
(järgneb)