Dokumendiformaadid
Neid kasutatakse väga erineva keerukusega dokumentide koostamiseks — alustades lihttekstist ja lõpetades multimeediat sisaldavate mahukate liigendatud dokumentidega.
Lihttekst: ASCII, Unicode, muud kodeeringud
Tavaliselt on laiendiks .txt, kuid laiendit ei pruugi üldse olla. Lihttekst on, nagu nimigi ütleb, lihtsaim elektroonilise dokumendi vorming, sisaldades vaid kirjamärke, tühikuid ja reavahetusi.
Lihttekst on kõige sagedamini ASCII ja Unicode vormingus. Esimene on lühend sõnadest American Standard Code for Information Interchange ega sobi meiekeelsete tekstide kodeeringuks, sest ei toeta kõiki tähti (eesti keele ametlik kodeeringustandard on ISO–8859–15).
Unicode’iga on lood palju paremad — selles sisalduvad enam–vähem kõikide maailma kirjakeelte märgid. Samas on see suhteliselt uus standard, mida mõni kasutatav tarkvaratükk ei pruugi veel osata. Kuna lihttekstiga ei kaasne ballastinfot vormingu ja laotuse kohta, on see kõige väiksema mahuga dokumendiformaat. On masinloetav, ei toeta linke ega multimeediat, toetab mitmekeelseid kirjamärke. Ekraanil lugemiseks ja printimiseks sobib sama versioon, kuigi pikemat ja liigendatud teksti tuleks väljaprindi loetavuse huvides mugavamaks vormindada.
RTF
ehk Rich Text Format, laiend on .rtf.
See on Microsofti väljamõeldud tekstiformaat, mis võimaldab elementaarset kujundust nagu kaldkiri, allajoonimine, rasvane tekst jm. Mõeldud erinevate programmide ja operatsioonisüsteemide vaheliseks infovahetuseks.
Dokument koosneb tekstist, kontrollsõnadest ja –sümboleist, mis määravad teksti vormingu. RTF on masinloetav, toetab mitmekeelseid kirjamärke, mitmeid lehekülgi, suudab teatud määral säilitada laotust, kuid ei toeta vähegi keerukamat kujundust ning seetõttu ei sobi hästi selleks, milleks loodi. Dokumendi sisu saab kätte, kuid layout läheb kaduma ja nii oleks mõttekam kasutada pigem lihtteksti, mis on väiksema mahuga ja parema toetusega. RTF ei toeta ka multimeediat dokumendisiseselt ega viiteid välistele failidele. Sama versioon dokumendist sobib kenasti nii ekraanil esitamiseks kui ka printimiseks.
Olgugi, et paljud tekstiredaktorid oskavad RTF–i salvestada, pole see siiski eriti levinud, levik on vähenenud ka seoses PDF–i menu kasvuga.
SXW
ehk StarOffice Writer / OpenOffice.org Writer Document, laiend .sxw.
XML keelel baseeruv dokumendiformaat, mida kasutavad peaaegu identsed kontoritööpaketid OpenOffice.org ja StarOffice. Esimene alates versioonist 1.0, teine versioonist 6.0.
SXW koosneb tegelikult mitmest XML tekstifailist ja binaarsetest või tekstilistest manustest (graafika, heli, video jms). Nagu kirjeldusest nähtub, on avatud ning mitmekülgsete võimalustega, igati sobilik kahepoolset redigeerimist vajavaks dokumendivahetuseks.
SXW on masinloetav, mitme lehekülje, linkide ja multimeedia toega. Sama versioon sobib nii ekraanil vaatamiseks kui ka printimiseks, säilitab suuresti laotuse ja on kokkupakituse tõttu väikesemahuline. Seega võtab arhiveerimisel vähe ruumi ja võib kindel olla, et seda suudetakse ka kümne ja enama aasta pärast lugeda.
SXW paariline on SXC, mida kasutavad StarOffice Calc ja OpenOffice.org Calc — nende tehnilised omadused on samad.
Pikemalt
DOC
ehk Microsoft Word Document, laiend on .doc
Microsofti kinnine dokumendiformaat, mida toodavad Microsoft Wordi erinevad versioonid. Omadustelt sarnaneb SXW–le, kuid kodeeringut hoitakse salajas, et sundida võimalikult paljusid Micorosoft Office’i juurde jääma ja teha üleminek alternatiividele võimalikult raskeks.
Erinevad Wordi versioonid toodavad erinevaid .doc–faile ega ava teisi korrektselt, puudub ühtne standard. Hetkel on DOC de facto standard kahepoolset redigeerimist nõudvas dokumendivahetuses, sageli kasutatakse seda ka ühepoolset redigeerimist nõudvates rakendustes, kus sobivam oleks hoopis PDF.
B2B ja B2C suhtluses ei tohiks DOC–i kasutada, sest ei saa eeldada, et teine pool on valmis minimaalselt nelja–viie tuhande krooniseks investeeringuks (Microsoft Office’i soetamiseks ja operatsioonisüsteemi vahetamiseks) ühe võõra dokumendi pärast. Austusest suhtluspartneri vastu tuleks kasutada asutuseväliseks infovahetuseks avatud formaate. Sama kehtib ka kõigi teiste suletud vormingute kohta.
Pikemalt
Esitlusformaadid
Kasutan sellist üldnime põhjusel, et need vormingud on mõeldud eelkõige dokumentide ekraanil näitamiseks või printimiseks. Neid nimetatakse mõnikord ka lehekülje kirjeldusformaatideks (Page Description Language). Levinumad on Adobe PostScript (PS) ja Adobe Acrobat Portable Document Format (PDF).
Esitlusformaadid pole mõeldud redigeerimiseks, kuigi see on teatavate jõupingutustega võimalik.
PS
ehk PostScript
on keel, milles kirjeldatakse täpselt väljundlehel asuvate graafiliste objektide asukohta ja olemust.
Postscripti lõi Adobe, see võimaldab kõrgkvaliteetset graafikat ja teksti trükkida ükskõik millisel PostScripti toetaval printeril (kui ostate printerit, küsige müüja käest, kas toetus on olemas). PS suudab taasesitada täpselt originaali laotuse ja vorminduse, ei toeta multimeediat ega linke välistele failidele. Samuti on failid üsna suured, kuna sisaldavad ohtralt struktuurinfot. Loodi põhiliselt printimiseks, on erineva DTP tarkvara poolt laialt toetatud eksportformaat, ei ole redigeeritav.
PS oli enne PDF–i väga laialt levinud ja on kasutatav senini.
PDF
ehk Portable Document Format
on üsna noor. See baseerub PostScriptil, millest tulenevad ka paljud omadused nagu keeruka laotuse ja vormindusega dokumentide esitamine ekraanil ja nende printimine.
PDF on riist– ja tarkvaraplatvormist sõltumatu, Adobe pakub selle vaatamiseks tasuta programmi Acrobat Reader paljudele platvormidele, kuid see pole ainus võimalik PDF–vaatur. PDF on üldiselt suhteliselt väikesemahuline.
Dokumentide PDF formaati salvestamiseks on samuti mitmeid võimalusi — Adobe pakub Acrobat–komplekti, OpenOffice.org võimaldab PDF–i eksportida, paljudele platvormidele on olemas vabavaraline Ghostscript, mis suudab PS–st teha PDF faili jne. PDF võimaldab sisemisi ja välimisi linke, sisukordi, lehekülje eelvaateid, multimeediat, täidetavaid vorme, on masinloetav ja veebibrauseris vaadatav (vastava plugina abil), üks ja sama dokumendiversioon sobib nii ekraanil näitamiseks kui printimiseks.
Veel võimaldab PDF määrata õigusi faili vaatamiseks ja printimiseks, piirata dokumendi sisu ekstraktimist jms. PDF–i on soovitav kasutada kõikjal, kus teisel poolel pole vaja dokumenti redigeerida, oluline on laotuse ja vormingu säilitamine ja tahetakse vältida tahtmatut sisu moondumist.
Struktureeritud formaadid
Need on vormingud, mis võimaldavad dokumendi elementide sildistamist. Tuntuim on vast HTML (Hypertext Markup Language) ehk otsetõlkes — Hüperteksti ÜlesKirjutamise Keel.
SGML
ehk Standard Generalized Markup Language
tekkis umbes 30 aastat tagasi, trüki– ja kirjastustööstuse vajadusest vahetada tekstilist informatsiooni erinevate süsteemide vahel.
SGML on dokumentide loogilise struktuuri kirjeldamise reeglite kogumik. See määratleb esiteks struktuursete või sisuliste elementide sildistamise reeglid ja teiseks siltide omavahelised hierarhilised suhted. Standardis sisalduvad ka üldised reeglid dokumentide eritüüpidele, selliseid kirjeldusi tähistatakse lühendiga DTD (Document Type Definition). DTD–d määratlevad konkreetses dokumenditüübis kasutatavad elemendid ja nende seosed. Näiteks võib artikkel koosneda abstraktsetest elementidest nagu pealkiri, autori nimi, sissejuhatus, peatükid, viited.
DTD määratleb seega dokumendi abstraktse sisu, oluline SGML–i omadus on aga see, et SGML sildid kirjeldavad vaid sisu struktuuri, mitte selle kujundust — sisu ja vorm on lahus. Seetõttu on sama sisuga dokumentidele lihtne anda mitmesuguseid välisilmeid, konvertida neid teistesse formaatidesse jms. Samuti on „sildistatud” dokumente lihtne redigeerida, iga objekti selles võib eraldi käsitleda.
Dokument toetab mitmekeelseid kirjamärke, on masinloetav, saab teostada otsinguid struktuuride kaupa. SGML ei sisalda laotuse ega kujunduse informatsiooni, ainult struktuuriinfot.
Pikemalt
XML
ehk eXtensible Markup Language
on veebistandard, millest on viimasel ajal vast kõik kuulnud. See on SGML–i lihtsustatud alamhulk, mis mõeldud kasutamiseks just veebis, omades reegleid ja grammatikat, et kirjeldada dokumentide struktuuri.
XML on võimsam vahend kui HTML, aga samas on välja jäetud vähem kasutatavad ja keerukamad SGML–i osad. Mõeldud lihtsamates veebirakendustes kasutamiseks, lihtsamaks dokumenditüüpide defineerimiseks. Sellele on mugavam teha ka rakendustarkvara, kuid alles on jäetud ühilduvus HTML–i ja SGML–iga. Näiteks kui SGML–dokumendil peab tingimata olema määratud DTD, siis XML puhul mitte (elemendid võivad olla määratud sama faili sees, SGML–i puhul oli selleks eraldi DTD fail).
Omaduste poolest on kaks formaati väga sarnased — mõlema eesmärk on kirjeldada struktuuri, mitte vormingut. Vormingu, välimuse kontrollimiseks ja defineerimiseks loodi eraldi standard nimega XSL (eXtensible Style Language).
HTML ja XHTML (HyperText Markup Language)
HTML on üks kindel SGML–i dokumenditüüp (DTD). See määratleb kindla koguse silte ning fikseeritud struktuuri nende elementide kasutamiseks. Elemendid on näiteks pealkirjad, paragrahvid, loetelud, tsiteeringud.
Esimesed HTML–i versioonid olid rohkem sarnased SGML–ile selles mõttes, et defineerisid vaid struktuuri. Hilisemad lisasid ka vormingu ja lõpupoole (standardi arendamine on lõpetatud) löödi jällegi struktuur kujundusest lahku. HTML–i viimases versioonis määratakse kujundus CSS–i abil (Cascading Style Sheets). Kuigi kujundus võib olla kirjeldatud, näitavad erinevad brauserid (ja mitte ainult brauserid) siiski sama HTML–teksti erinevalt.
Sobib lihtsa struktuuri ja kujundusega dokumentide jaoks, ei sobi keerukamate DTP programmide dokumentide vahetusformaadiks. HTML on väga levinud — võib öelda, et peaaegu kogu Internetis olev info on selles vormingus.
Kokkuvõtteks
Üldise globaliseerumise ja laienevate suhtlusringkondade tõttu tuleb üha enam mõelda sellele, mis vormingusse loodu pakendada. Info on kasulik vaid siis, kui seda on võimalik jagada ja info levik saab olla edukas siis, kui kõik osapooled „räägivad ühte keelt”. Ehk siis vorming, millesse panna info, mida soovite paljudega jagada, peaks olema avatud vormingus.
Vabavara ja avatud formaatide kasutamisel saab suureks eeskujuks olla riik. Eestis on väljatöötamisel riiklik IT arhitektuuri koosvõime raamistik, mis seab esialgses variandis rõhu just vabavara (avatud lähtekoodiga tarkvara) ja avatud formaatide kasutamise, lähtutakse sealjuures Euroopa Komisjoni eEuroopa tegevuskavast.