četrtek, 6. junij 2002

Statistični paket za družbene vede SPSS


V tem sestavku bomo skušali predstaviti enega od programskih paketov, ki je namenjen analizi statističnih podatkov. Paket se imenuje SPSS (statistical package for the social sciences - Statistični paket za družbene vede) in je bil razvit na univerzi v Chicagu.

V krajšem uvodu bi spregovorili nekaj besed na splošno o programskih paketih, prednostih in pomanjkljívostih njihove uporabe. Pri opisu konkretnega paketa bomo največ pozornosti posvetili dvema značilnostma SPSS in sicer

  • statističnih metod ter
  • obdelave podatkov z računalniškega stališča.

Pristop k računalniški obdelavi določenega problema z uporabo programskega paketa je podoben pristopu k obdelavi s programom, ki ga naredi uporabnik sam. Vendar pa so med pristopoma nekatere bistvene in pomembne razlike, zaradi katerih bo kritični uporabnik rezultatov načrtovane obdelave vedno razmislil, kateri od obeh pristopov je, glede na okoliščine in možnosti primernejši.

Za pristop k obdelavi s programskim paketom je značilno sledeče:

  • Programiranje algoritma ni potrebno ker je njegov program že vključen v paketu. Z malo dopolnilnega znanja je omogočen neposreden in samostojen pristop k delu na računalniku velikemu številu strokovnjakov s področja za katerega obstoji programski paket, čeprav ne obvladajo tehnike programiranja in ne poznajo programskega jezika
  • Algoritem (metoda) za razrešitev naloge je že vnaprej izbran, ker so ga definirali razvijalci programskega paketa. Uporabnik zato lahko razreši nek problem s pomočjo paketa tudi če ne pozna natančno algoritma. To predstavlja še eno olajšavo pri uporabi računalnika, je pa tudi lahko pomanjkljivost. Namreč, sam algoritem je narejen za širok krog uporabnikov in ni vedno najboljši ali najbolj ekonomičen.
  • Možni rezultati računalniške obdelave so v programskem paketu že vnaprej natančno predpisani. Upamo lahko, da so razvijalci programskega paketa bili dovolj dobri poznavalci področja, in da zato možni rezultati obdelave res predstavlja'o vse tiste potrebne informacije, ki jih uporabnik potrebuje.
  • Vse te značilnosti uporabe uvrščajo programske pakete med priporočljive in nadvse koristne pripomočke za ekonomično delo in izrabo računalnikov. Zaradi tega se je tudi njihova uporaba zelo povečala in se vedno pojavljajo novi paketi za različna področja.

Značilnosti SPSS

Za področje statistike je bilo razvitih več paketov od katerih sta najbolj znana in rabljena SPSS in STATJOB. SPSS je prirejen za večje računalnike vseh znanih proizvajalcev: CDC, DEC, IBM, Honeywell, Burroughs, UNIVAC itd.

Možnosti na področju statistike

Kljub temu, da dodelitev statističnih metod na enostavne in bolj zahtevne ni najbolj primerna, nam bo prišla prav pri razlagi SPSS možnosti.

V enostavne statistike štejemo:

  • izračun naslednjih vrednosti za določeno populacijo: aritmetične sredine, standardne napake, mediane, modusa, standardnega odklona, variance, koeficienta sploščenosti, ranga, vsote itd. Populacija, ki jo preučujemo je več enot izbranih po določenem kriteriju (področje, panoga, teritorialna pripadnost, organizacijska struktura itd.)
  • izračun dvo in večjih kontingenčnih tabel ter naslednjih neparametričnih statistik za analizo tabel: hi-kvadrat, phi, kontingenčni koeficient, simetrični in asimetrični lambda itd.
  • izračun in primerjavo nekaterih vrednosti za celotno populacijo, kakor tudi za njene manjše dele. Primer: izračunamo vrednost dohodka na delavca za celotno gospodarstvo in ga primerjamo z dohodkom na delavca po področjih, panogah, skupinah in podskupinah.
  • dvovariantno korelacijsko analizo. Odvisnost med dvema spremenljivkama je mogoče prikazati s korelacijskim grafikonom, z izračunom korelacijskih koeficientov, koeficientov regresijske krivulje in tako dalje.

Od zahtevnejših statističnih metod omenjamo sledeče:

  • multipla regresijska analiza. Pri dvovariantni korelacijski analizi preučujemo soodvisnost dveh spremenljivk. Pri regresijski analizi pa preučujemo relacije med eno odvisno ali kriterijsko spremenljivko in grupo neodvisnih spremenljivk. Primer: Za kriterijsko spremenljivko vzamemo čisti osebni dohodek na delavca in nas zanima kako na njega vplivajo dohodek na delavca, povprečno uporabljena osnovna sredstva in dohodek na sredstva.
  • parcialna korelacijska analiza. Pri socioekonomskih pojavih redko srečamo čisto odvisnost dveh spremenljivk. Večinoma na eno spremenljivko vpliva več drugih. S parcialno korelacijsko analizo lahko odstranimo vplive ostalih in preučujemo samo čiste odnose med dvema spremenljivkama. Primer: odstranimo vpliv povprečno uporabljenih osnovnih sredstev in dohodka na sredstva na čisti osebni dohodek, pri čemer nas zanima čisti vpliv dohodka na delavca na čisti osebni dohodek.
  • faktorska analiza. Za njo je predvsem značilno,da nam omogoča zmanjševanje vhodnih podatkov. Namreč, s faktorsko analizo lahko ugotovimo nekatere osnovne značilnosti ali relacije pri dani skupini spremenljivk, tako da te podatke lahko "preuredimo" ali "reduciramo" na manjšo skupino faktorjev ali komponent. To manjšo skupino potem obravnavamo kot izvirne variable, seveda z upoštevanjem medsebojnih relacij.

Razen teh treh statističnih metod se s pomočjo paketa SPSS lahko uporabimo tudi:
  • diskriminacijske analize, 
  • kanonične korelacijske analize, 
  • multiple nelinearne regresijske analize, 
  • spektralne analize in
    še cele množice statističnih metod. 
Vse naštete metode so zelo enostavne za uporabo, saj podprograme za vsako statistično metodo pokličemo samo z enim imenom in povemo še katere so vhodne variable. Tako odpade zamudno programiranje kompliciranih algoritmov.

Kljub temu, da so možnosti programskega paketa SPSS pri uporabi statističnih metod najbolj pomembna prednost paketa, bomo spregovorili še nekaj besed o prednostih z računalniškega stališča.

Možnosit na področju obdelave podatkov

SPSS ni programski jezik ter zaradi tega ne more programirati vse kar bi želeli. Tisto kar nam nudi, pa je dovolj (včasih preveč) za naše potrebe in kar je najbolj važno, uporaba je izredno enostavna.

Naštejmo nekaj značilnosti:

  • Statistične obdelave so po naravi zaporedne in tudi SPSS dela z njimi, ki so lahko na disku, trakovih ali karticah.
  • Omogočena je kreiranje, ažuriranje in arhiviranje sistemskih SPSS datotek s kompletnimi informacijami o spremenljivkah in njihovem formatu, o poddatotekah in številu enot itd.
  • Maksimalno število spremenljivk v eni obdelavi je do 5.000. (Obdelava z največ spremenljivkami v SDK je obdelava zaključnih računov in ima nekaj manj kot 1.300 spremenljivk).
  • Sortiranje podatkov izvedemo z pozivom podprograma za sort in seznamom spremenljivk, po katerih želimo imeti sortirano podatke.
  • Možno je začasno ali permanentno izvršiti: transformacije podatkov, selekcionirati podatke, jim dati posebno utež (večjo ali manjšo veljavo), vzorčenje podatkov itd.
  • Ena od značilnosti dela v SDK na področju statistike v (računskih centrih) je veliko izpisov različnih tabel. Programiranje izpisov je enostavna a zamudna naloga, zato bi uporaba SPSS pripomogla k hitrejši izdelavi tabel. S samo štirimi ključnimi besedami lahko formiramo izhodno listo in določimo: širino kolon, dolžino strani, komentarje in še kakšnih dvajset enostavnih statistik ter njihovih kombinacij za vsako kolono.

V tako kratkem sestavku je težko predstaviti obsežen paket kot je SPSS. Skušali smo izbrati tisto, kar bi lahko koristno uporabljali za naše delo.


Avgust 1982


Ni komentarjev:

Objavite komentar