četrtek, 6. junij 2002

SQL in GDDM


Omogočanje direktnega dostopa do podatkov SDK


April 1986

V sektorju za računalniško obdelavo podatkov smo proti koncu leta 1985 instalirali novo opremo, ki po zmožnostih centralnega procesorja daleč prekaša prejšnjo. Ravno tako imamo na voljo veliko več prostora za hranjenje podatkov na diskovnih enotah. Razširitve v teh dveh smereh ne pomenijo najbolj važne novosti. Bistveno spremembo pomeni nakup komunikacijske enote, ki nam omogoča povezavo z drugimi računalniki ali povezavo oddaljenih uporabnikov v SDK ali zunaj SDK na naš računalnik.

Zmogljivejši procesor in zadosten prostor na diskih pa sta osnovna pogoja za uporabo kompleksnejših programskih produktov. Namreč, večina novejših programskih paketov zahteva za svoje normalno delovanje veliko prostora na diskih in precej glavnega spomina. Hkrati z razširitvijo strojne opreme smo se odločili tudi za posodobitev programske opreme. Od podjetja Intertrade, zastopnika IBM, smo si izposodili programska paketa Structured Query Language (SQL) in Graphical Data Display Manager (GDDM) z namenom, da jih pokažemo vsem potencialnim uporabnikom v službi in izven nje ter se na podlagi mnenja bodočih uporabnikov odločimo o najemu le-teh.

V dogovoru z vodstvom službe smo se odločili, da pripravimo tri predstavitve (demonstracije, prezentacije), na katerih bi obvestili uporabnike o novostih, ki jih pripravljamo. Demonstracije naj bi potekale v realnih okoliščinah (s tehničnega stališča) tako, da bi uporabniki dobili čim bolj verno predstavo bodočega načina dela. Potem, ko smo pregledali nekaj dvoran v Ljubljani, smo se, iz več razlogov, odločili za Cankarjev dom.

Prva predstavitev je bila za analitike iz SDK v SRS, druga za direktorje podružnic iz SRS ter za člane sveta službe in tretja za največje zunanje uporabnike naših podatkov.

Kljub temu, da je šlo v bistvu za prikazovanje ene in iste stvari, je vsaka prezentacija zahtevala posebno pripravo, in sicer iz sledečih razlogov:
  • različne skupine poslušalcev
  • razen prve skupine (naših analitikov) smo imeli v drugih dveh skupinah še zelo heterogeno sestavo same skupine, kar posebej velja za tretjo skupino (politiki, strokovni delavci, računalničarji, novinarji itd.),
  • cilji prezentacije so bili za vsako skupino različni, kar je bilo treba tudi pokazati s samo vsebino.
Za vse tri skupine pa smo imeli skupni cilj. Hoteli smo povedati in pokazati vsem možnim uporabnikom naših podatkov, da se je mogoče povezati direktno na naš računski center in neposredno, brez posredovanja strokovnjakov iz AOP povpraševati po podatkih.

V nadaljevanju bomo povedali nekaj več o pripravi, poteku in rezultatih posameznih demonstracij.

Kljub nekaterim razlikam so vse tri prezentacije potekale na podoben način. Sestavljene so bile iz štirih delov, in sicer:

  • Uvodni del, v katerem je bil razložen namen ter predstavljeni podatki SDK in oba programska produkta SQL in GDDM (trajanje: približno 30 minut).
  • V drugem delu so se udeleženci razporedili v skupine okoli ekranov (v CD smo imeli 8 ekranov, povezanih z našim računalnikom na Cankarjevi 18) ter postavljali vprašanja delavcem ROP, ki so ta vprašanja »prevedli« v SQL razumljivo obliko (približno 30-45 minut, odvisno od interesa udeležencev).
  • Naslednjih 15 minut je bilo namenjeno odgovorom na vprašanja udeležencev in diskusiji o tem, kar so videli.
  • V zadnjem delu je bilo govora o tem, kako bomo vnaprej uporabljali SQL, možnosti povezave IBM in Burroughs podružnic na računalnik v Ljubljani ter o težavah, katere pričakujemo pri takšnem načinu dela (10 minut).
Še nekaj besed o podatkih. Pripravili smo jih samo za demonstracijo, in sicer iz obdelav, ki jih že sedaj izvajamo pri nas. Ker SQL zahteva posebno obliko shranjevanja podatkov na magnetni diskih ni bilo mogoče uporabiti že obstoječih datotek, ampak je bilo treba pripraviti nove.

Najbolj objektivno oceno uporabnosti programskih paketov lahko dajo sami uporabniki. Upoštevajoč to dejstvo, smo za analitike, ki so se zbrali na svojem rednem letnem srečanju 20. februarja 1986 v Cankarjevem domu, pripravili prikaz delovanja naših novih programov. Izbor podatkov smo naredili v dogovoru z Informativno-analitskim oddelkom Centrala, pripravili pa smo naslednje skupine podatkov:

  • Periodični obračun l-9/85 gospodarstvo in negospodarstvo SRS, vse elemente
  • Datoteke investicij s stanjem 31. 12. 1985 (vsi investicijski objekti, republiška raven)
  • Kumulativni podatki po podskupinah dejavnosti za SFRJ iz gospodarstva za leta 1981, 1982, 1983 in 1984 in sicer samo nekatere elemente (okrog 50 elementov).

Seveda je možno pripraviti podatke tudi iz ostalih obdelav, ki jih imamo v SDK. Menili smo, da so za demonstracijo delovanja programov dovolj te tri skupine podatkov.

Ohrabreni z rezultati prve demonstracije smo se odločili, da pripravimo nekaj podobnega za direktorje podružnic in člane sveta službe ter za naše največje uporabnike zunaj službe.

Demonstraciji sta potekali isti dan (2. aprila 1986) v prostorih Cankarjevega doma. Prva je bila ob 9. uri, druga pa ob 12. uri.

Podatki, ki smo jih tokrat pripravili, niso bili isti kot prvič. Razen podatkov o investicijah in kumulativnih podatkov iz ZR smo dodatno pripravili še naslednje skupine podatkov:

  • Skrajšano shemo zaključnega računa za leto 1985
  • Kadrovske evidenco zaposlenih v SDK v SRS
  • Združene podatke SDK, Zavoda za statistiko Slovenije (ZSS) in Narodne banke Slovenije (NBS).
  • Iz zaključnega računa, ki ima letos 664 elementov, smo naredili na predlog analitikov krajšo shemo z vsega skupaj 226 elementi. Ta shema je zelo podobna tisti, ki jo sicer predlaga SDK za zaključni račun.
  • Kadrovska evidenca je bila pripravljena s posebnim namenom. Namreč, za delo s programom SQL je skoraj najbolj pomembno poznavanje strukture podatkov. Ker smo predvidevali, da bodo tudi prisotni ljudje, ki ne poznajo naših podatkov, smo pripravili kadrovsko evidenco. To pa poznajo skoraj vsi zaposleni, kajti povsod se vodijo zelo podobni podatki o delavcih.

Zadnja skupina podatkov je izzvala največ polemike, kakor pri nas v SDK, že pred demonstracijo, tako tudi med prisotnimi. Pokazali smo združene podatke NBS (uvoz in izvoz po TOZD) za leto 1983, ZSS (število zaposlenih in izobrazbena struktura po TOZD za leto 1983) in SDK (Zaključni račun 1985).

Na istem ekranu je bilo mogoče dobiti en stolpec s podatki SDK, v drugem stolpcu podatke NBS in v tretjem podatke ZSS. Res je, da so podatki medsebojno neusklajeni, kakor po vsebini in po načinu obračuna tako tudi časovno. Naš namen je bil pokazati rešitev samo tehničnega dela problema združevanja podatkov različnih organizacij, za vsebinski del pa so pooblaščeni drugi. Hkrati moramo priznati, da je tehnični del veliko lažje rešljiv kot pa vsebinski.

Medtem ko sta prvi dve demonstraciji bili »internega« značaja in bi si lahko dovolili manjši spodrsljaj, je tretja zahtevala maksimalno angažiranost z naše strani kakor tudi brezhibno delovanje instalirane opreme in programov. Na srečo, vse je potekalo brez problemov.

Odziv povabljenih predstavnikov naših največjih uporabnikov je presegel vsa pričakovanja. Zbralo se je okoli 70 ljudi iz Skupščine SRS, Zavoda za planiranje SRS, Republiškega sekretariata za finance, socialistične zveze, gospodarske zbornice, Narodne banke, Zavoda za statistiko, Republiškega komiteja za informiranje itd.

Redkokdaj se zgodi v računalništvu, da se kakšna novost sprejme s takšnim zadovoljstvom, kot se je to zgodilo tokrat. Praktično nismo slišali nobene negativne ocene uporabnosti programskega paketa. Prav gotovo je takšna ocena posledica premišljeno izbranih podatkov, brezhibnega delovanja programov in druge opreme. Vse to je omogočalo zelo hitre odgovore (od nekaj sekund do nekaj minut, odvisno od zahtevnosti zahteve).

Najbolj zadovoljni so bili naši analitiki na prvi prezentaciji. To je tudi logično, saj bo prav njim SQL največ pomagal. Imeti podatke vedno pri roki enostavno dosegljive, spreminjati zahteve po lastni želji in rezultate takoj videti na ekranskem terminalu ter jih po želji izpisati na tiskalniku je tisto, kar si vsakdo, ki ima vsakodnevno opravka s podatki, najbolj želi.

Tudi zunanji uporabniki so pokazali veliko zanimanje. V prvih dneh po prezentaciji smo že imeli nekaj pogovorov o možnostih direktne povezave na naš računalnik.

Kaj lahko pričakujemo od SQL pri nas v SDK? Prednosti njegove uporabe vidimo predvsem na sledečih področjih:

  • vsem funkcijam (in ne samo analitikom) veliko hitrejši dostop do podatkov. Nikakor pa ne smemo misliti, da bomo s SQL reševali vse zahtevke. Še vedno bomo v računskem centru tiskali obdelave, ki imajo veliko izpisa
  • delo preko ekrana je namenjeno reševanju tistih zahtevkov, ki nimajo obseženih izhodov (maksimalno nekaj printerskih strani)
  • analitikom (in tudi drugim) iz vseh podružnic bo omogočen neposreden dostop do republiških podatkov
  • če bodo na nas priključeni tudi zunanji uporabniki, lahko pričakujemo tudi manj zahtevkov od njih, ker jih bodo sami realizirali neposredno preko ekranskih terminalov

Začeli smo s popolnoma novim pristopom v računalniški obdelavi podatkov. Njegov osnovni cilj je podatke čim bolj približati uporabniku in mu omogočiti samostojno delo brez posredovanja računalničarjev.

Kdaj bomo vsem podružnicam omogočili uporabo SQL, je sedaj težko povedati. Realno je pričakovati, da se bo to zgodilo v naslednjih dveh, treh letih. Do takrat pa nas, ne samo delavce ROP, ampak tudi vse tiste, ki hočejo imeti podatke tako prirejene, čaka veliko skupnega dela.

Posebno važno je razumeti neizpodbitno dejstvo, da pripravljanje, zbiranje in urejanje podatkov predstavlja timsko delo, v katerem obvezno sodelujejo tudi uporabniki. Računalničarji smo brez njihovega aktivnega sodelovanja praktično brez moči.






Statistični paket za družbene vede SPSS


V tem sestavku bomo skušali predstaviti enega od programskih paketov, ki je namenjen analizi statističnih podatkov. Paket se imenuje SPSS (statistical package for the social sciences - Statistični paket za družbene vede) in je bil razvit na univerzi v Chicagu.

V krajšem uvodu bi spregovorili nekaj besed na splošno o programskih paketih, prednostih in pomanjkljívostih njihove uporabe. Pri opisu konkretnega paketa bomo največ pozornosti posvetili dvema značilnostma SPSS in sicer

  • statističnih metod ter
  • obdelave podatkov z računalniškega stališča.

Pristop k računalniški obdelavi določenega problema z uporabo programskega paketa je podoben pristopu k obdelavi s programom, ki ga naredi uporabnik sam. Vendar pa so med pristopoma nekatere bistvene in pomembne razlike, zaradi katerih bo kritični uporabnik rezultatov načrtovane obdelave vedno razmislil, kateri od obeh pristopov je, glede na okoliščine in možnosti primernejši.

Za pristop k obdelavi s programskim paketom je značilno sledeče:

  • Programiranje algoritma ni potrebno ker je njegov program že vključen v paketu. Z malo dopolnilnega znanja je omogočen neposreden in samostojen pristop k delu na računalniku velikemu številu strokovnjakov s področja za katerega obstoji programski paket, čeprav ne obvladajo tehnike programiranja in ne poznajo programskega jezika
  • Algoritem (metoda) za razrešitev naloge je že vnaprej izbran, ker so ga definirali razvijalci programskega paketa. Uporabnik zato lahko razreši nek problem s pomočjo paketa tudi če ne pozna natančno algoritma. To predstavlja še eno olajšavo pri uporabi računalnika, je pa tudi lahko pomanjkljivost. Namreč, sam algoritem je narejen za širok krog uporabnikov in ni vedno najboljši ali najbolj ekonomičen.
  • Možni rezultati računalniške obdelave so v programskem paketu že vnaprej natančno predpisani. Upamo lahko, da so razvijalci programskega paketa bili dovolj dobri poznavalci področja, in da zato možni rezultati obdelave res predstavlja'o vse tiste potrebne informacije, ki jih uporabnik potrebuje.
  • Vse te značilnosti uporabe uvrščajo programske pakete med priporočljive in nadvse koristne pripomočke za ekonomično delo in izrabo računalnikov. Zaradi tega se je tudi njihova uporaba zelo povečala in se vedno pojavljajo novi paketi za različna področja.

Značilnosti SPSS

Za področje statistike je bilo razvitih več paketov od katerih sta najbolj znana in rabljena SPSS in STATJOB. SPSS je prirejen za večje računalnike vseh znanih proizvajalcev: CDC, DEC, IBM, Honeywell, Burroughs, UNIVAC itd.

Možnosti na področju statistike

Kljub temu, da dodelitev statističnih metod na enostavne in bolj zahtevne ni najbolj primerna, nam bo prišla prav pri razlagi SPSS možnosti.

V enostavne statistike štejemo:

  • izračun naslednjih vrednosti za določeno populacijo: aritmetične sredine, standardne napake, mediane, modusa, standardnega odklona, variance, koeficienta sploščenosti, ranga, vsote itd. Populacija, ki jo preučujemo je več enot izbranih po določenem kriteriju (področje, panoga, teritorialna pripadnost, organizacijska struktura itd.)
  • izračun dvo in večjih kontingenčnih tabel ter naslednjih neparametričnih statistik za analizo tabel: hi-kvadrat, phi, kontingenčni koeficient, simetrični in asimetrični lambda itd.
  • izračun in primerjavo nekaterih vrednosti za celotno populacijo, kakor tudi za njene manjše dele. Primer: izračunamo vrednost dohodka na delavca za celotno gospodarstvo in ga primerjamo z dohodkom na delavca po področjih, panogah, skupinah in podskupinah.
  • dvovariantno korelacijsko analizo. Odvisnost med dvema spremenljivkama je mogoče prikazati s korelacijskim grafikonom, z izračunom korelacijskih koeficientov, koeficientov regresijske krivulje in tako dalje.

Od zahtevnejših statističnih metod omenjamo sledeče:

  • multipla regresijska analiza. Pri dvovariantni korelacijski analizi preučujemo soodvisnost dveh spremenljivk. Pri regresijski analizi pa preučujemo relacije med eno odvisno ali kriterijsko spremenljivko in grupo neodvisnih spremenljivk. Primer: Za kriterijsko spremenljivko vzamemo čisti osebni dohodek na delavca in nas zanima kako na njega vplivajo dohodek na delavca, povprečno uporabljena osnovna sredstva in dohodek na sredstva.
  • parcialna korelacijska analiza. Pri socioekonomskih pojavih redko srečamo čisto odvisnost dveh spremenljivk. Večinoma na eno spremenljivko vpliva več drugih. S parcialno korelacijsko analizo lahko odstranimo vplive ostalih in preučujemo samo čiste odnose med dvema spremenljivkama. Primer: odstranimo vpliv povprečno uporabljenih osnovnih sredstev in dohodka na sredstva na čisti osebni dohodek, pri čemer nas zanima čisti vpliv dohodka na delavca na čisti osebni dohodek.
  • faktorska analiza. Za njo je predvsem značilno,da nam omogoča zmanjševanje vhodnih podatkov. Namreč, s faktorsko analizo lahko ugotovimo nekatere osnovne značilnosti ali relacije pri dani skupini spremenljivk, tako da te podatke lahko "preuredimo" ali "reduciramo" na manjšo skupino faktorjev ali komponent. To manjšo skupino potem obravnavamo kot izvirne variable, seveda z upoštevanjem medsebojnih relacij.

Razen teh treh statističnih metod se s pomočjo paketa SPSS lahko uporabimo tudi:
  • diskriminacijske analize, 
  • kanonične korelacijske analize, 
  • multiple nelinearne regresijske analize, 
  • spektralne analize in
    še cele množice statističnih metod. 
Vse naštete metode so zelo enostavne za uporabo, saj podprograme za vsako statistično metodo pokličemo samo z enim imenom in povemo še katere so vhodne variable. Tako odpade zamudno programiranje kompliciranih algoritmov.

Kljub temu, da so možnosti programskega paketa SPSS pri uporabi statističnih metod najbolj pomembna prednost paketa, bomo spregovorili še nekaj besed o prednostih z računalniškega stališča.

Možnosit na področju obdelave podatkov

SPSS ni programski jezik ter zaradi tega ne more programirati vse kar bi želeli. Tisto kar nam nudi, pa je dovolj (včasih preveč) za naše potrebe in kar je najbolj važno, uporaba je izredno enostavna.

Naštejmo nekaj značilnosti:

  • Statistične obdelave so po naravi zaporedne in tudi SPSS dela z njimi, ki so lahko na disku, trakovih ali karticah.
  • Omogočena je kreiranje, ažuriranje in arhiviranje sistemskih SPSS datotek s kompletnimi informacijami o spremenljivkah in njihovem formatu, o poddatotekah in številu enot itd.
  • Maksimalno število spremenljivk v eni obdelavi je do 5.000. (Obdelava z največ spremenljivkami v SDK je obdelava zaključnih računov in ima nekaj manj kot 1.300 spremenljivk).
  • Sortiranje podatkov izvedemo z pozivom podprograma za sort in seznamom spremenljivk, po katerih želimo imeti sortirano podatke.
  • Možno je začasno ali permanentno izvršiti: transformacije podatkov, selekcionirati podatke, jim dati posebno utež (večjo ali manjšo veljavo), vzorčenje podatkov itd.
  • Ena od značilnosti dela v SDK na področju statistike v (računskih centrih) je veliko izpisov različnih tabel. Programiranje izpisov je enostavna a zamudna naloga, zato bi uporaba SPSS pripomogla k hitrejši izdelavi tabel. S samo štirimi ključnimi besedami lahko formiramo izhodno listo in določimo: širino kolon, dolžino strani, komentarje in še kakšnih dvajset enostavnih statistik ter njihovih kombinacij za vsako kolono.

V tako kratkem sestavku je težko predstaviti obsežen paket kot je SPSS. Skušali smo izbrati tisto, kar bi lahko koristno uporabljali za naše delo.


Avgust 1982