OpenData skupina
Matthai
Član
Torej, na IRCu smo se že nekaj pogovarjali glede odprtih podatkov. Zadeva se je začela z objavo podatkov o plačah javnih uslužbencev: https://github.com/ubuntu-si/analize-ijz
Ti podatki od Podčrto so sicer ena malce obdelana tabela podatkov o plačah v javnem sektorju (ISPAP). Te podatke sem pred kakšnim letom dobil od MJU kot informacijo javnega značaja.
ISPAP baze je za leta 2010 - 2014 okrog 583 Mb - zazipano. ISPAP baza ima 304 spremenljivke, obstaja pa še razširjena verzija, ki ima še precej več spremenljivk (vsebuje tudi oddelane ure).
Jaz sem vse različne kategorije prihodkov združil v 6 skupin:
- plača
- položajni dodatek
- ostali dodatki
- delovna uspešnost
- dodatno delo
- dežurstvo
Samo uvažanje, računanje in indeksiranje sicer na i7 mašini z 8 Gb RAMa traja približno en dan. Ko so podatki pripravljeni, se pa da relativno enostavno računati zadeve. Jaz sem recimo v PSQL naredil izračun kariernih poti, prehode med organi, itd.
Je pa pri tej bazi nekaj težav, ker ni bila ustrezno zdizajnirana. S tem mislim, da ni časovno zasnovana - da bi imeli podatki časovne veljavnosti. Se pravi če sem jaz 100% zaposlen v organu A do 11-tega v mesecu in se potem zaposlim v organu B (spet 100%), bo za ta mesec v bazi pisalo, da sem imel 200% zaposlitev. Bi se pa dalo te zadeve rekonstruirati z oddelanimi urami... Anyway, treba se je poglobiti tudi v vsebinski del.
Druga zadeva pa je, da so se na MJU precej napalili na odprte podatke. V ponedeljek sem bil pri njih na sestanku glede tega. V maju in juniju bi radi organizirali dva dogodka povezana z odprtimi podatki, na voljo so celo neke finance (4900 EUR). Kot partnerja je MJU pri tem projektu povabil Transparency Slovenija in IJS.
Iz tega se bo pokrilo dogodka (en bo novinarska konferenca, en bo verjetno hackaton), predlagali pa so, da bi naredili prezentacijo/analizo/vizualizacijo enega izmed naslednjih setov podatkov:
A. Občinski proračuni
Tukaj bi združili podatke realiziranih občinskih proračunov (imajo konte do K6, kar pomeni, da lahko delamo tudi primerjavo proračunov, npr. koliko dajejo občine za investicije in razvoj, koliko za plače,...), s podatki o številu zaposlenih (to lahko potegnemo iz ISPAP baze), številu prebivalcev v občini, površini občine, kilometrih cest,...
S tem bi se dalo meriti učinkovitost občin (npr. število cest vs. proračun za vzdrževanje in pluženje) in občine primerjati. V bistvu bi lahko zraven vključili še kakšne dodatne podatke (npr. vremenske =potreba po pluženju, kakovost cest,...).
Lahko pa bi občine enostavno primerjali s kakšnim preprostim klasifikatorjem (recimo kakšno hierarhično grupiranje) in skušali odkrivati "outlierje".
B. Vizualizacija projektov kjer država vlaga sredstva
Tale zadeva je precej preprosta. Obstaja baza različnih projektov (naziv, vrednost, trajanje, lokacija), te podatke pa bi potem vizualizirali na način, da bi se videlo kam država vlaga denar (občine/regije), koliko, in na katera področja. Poleg tega bi lahko uporabnik kliknil na občino in bi se mu prikazali vsi projekti iz te občine.
Na MJU mi sicer niso znalo povedati koliko je ta zadeva povezana s projektom "Država za razvoj Slovenije" - http://www.vlada.si/teme_in_projekti/drzava_za_razvoj_slovenije/, bi bilo pa zanimivo na enem mestu zbrati vsa razvojna sredstva in vse subvencije države.
Namreč, pri tem projektu Država za razvoj Slovenije se vidi, da je slovenska vlada kot razvojno pomoč štela tudi sredstva za zapiranje (!) rudnika Trbovlje Hrastnik, sanacijo NLB, neke subvencije mastodontom ala Slovenskim železnicam, itd. V bistvu so me na to stran opozorili na Evropski komisiji, kjer so se prav zgražali kaj Slovenija šteje kot razvojna sredstva. Takod a bib ilo tukaj fino narediti eno analizo v kaj hudiča mi sploh vlagamo razvojni denar.
OK, še dve ideji za vire podatkov. Prvi vir subvencij in nepovratnih sredstev je Supervizor (iskanje izplačil kjer je namen vseboval ~* "subvencija", "dotacija" ali "nepovratna sredstva"). Drugi vir pa MFERAC knjižbe v Supervizorju, kjer je šlo za plačilo zapadlih poroštev bankam. Primer: http://supervizor.kpk-rs.si/organ/16110/podj/68297530/ (Plačila zapadlih poroštev privatnim podjetjem ter Plačila zapadlih poroštev fizičnim osebam). Ti podatki žal niso v obliki baze, bi jih pa lahko pridobili po ZDIJZ ali poscrapali iz Supervizorja.
V glavnem, za samo programiranje bo verjetno na voljo kakšne 2000 EUR. To sicer ni veliko, ampak finance tukaj verjetno niso glavni motiv...
Ti podatki od Podčrto so sicer ena malce obdelana tabela podatkov o plačah v javnem sektorju (ISPAP). Te podatke sem pred kakšnim letom dobil od MJU kot informacijo javnega značaja.
ISPAP baze je za leta 2010 - 2014 okrog 583 Mb - zazipano. ISPAP baza ima 304 spremenljivke, obstaja pa še razširjena verzija, ki ima še precej več spremenljivk (vsebuje tudi oddelane ure).
Jaz sem vse različne kategorije prihodkov združil v 6 skupin:
- plača
- položajni dodatek
- ostali dodatki
- delovna uspešnost
- dodatno delo
- dežurstvo
Samo uvažanje, računanje in indeksiranje sicer na i7 mašini z 8 Gb RAMa traja približno en dan. Ko so podatki pripravljeni, se pa da relativno enostavno računati zadeve. Jaz sem recimo v PSQL naredil izračun kariernih poti, prehode med organi, itd.
Je pa pri tej bazi nekaj težav, ker ni bila ustrezno zdizajnirana. S tem mislim, da ni časovno zasnovana - da bi imeli podatki časovne veljavnosti. Se pravi če sem jaz 100% zaposlen v organu A do 11-tega v mesecu in se potem zaposlim v organu B (spet 100%), bo za ta mesec v bazi pisalo, da sem imel 200% zaposlitev. Bi se pa dalo te zadeve rekonstruirati z oddelanimi urami... Anyway, treba se je poglobiti tudi v vsebinski del.
Druga zadeva pa je, da so se na MJU precej napalili na odprte podatke. V ponedeljek sem bil pri njih na sestanku glede tega. V maju in juniju bi radi organizirali dva dogodka povezana z odprtimi podatki, na voljo so celo neke finance (4900 EUR). Kot partnerja je MJU pri tem projektu povabil Transparency Slovenija in IJS.
Iz tega se bo pokrilo dogodka (en bo novinarska konferenca, en bo verjetno hackaton), predlagali pa so, da bi naredili prezentacijo/analizo/vizualizacijo enega izmed naslednjih setov podatkov:
A. Občinski proračuni
Tukaj bi združili podatke realiziranih občinskih proračunov (imajo konte do K6, kar pomeni, da lahko delamo tudi primerjavo proračunov, npr. koliko dajejo občine za investicije in razvoj, koliko za plače,...), s podatki o številu zaposlenih (to lahko potegnemo iz ISPAP baze), številu prebivalcev v občini, površini občine, kilometrih cest,...
S tem bi se dalo meriti učinkovitost občin (npr. število cest vs. proračun za vzdrževanje in pluženje) in občine primerjati. V bistvu bi lahko zraven vključili še kakšne dodatne podatke (npr. vremenske =potreba po pluženju, kakovost cest,...).
Lahko pa bi občine enostavno primerjali s kakšnim preprostim klasifikatorjem (recimo kakšno hierarhično grupiranje) in skušali odkrivati "outlierje".
B. Vizualizacija projektov kjer država vlaga sredstva
Tale zadeva je precej preprosta. Obstaja baza različnih projektov (naziv, vrednost, trajanje, lokacija), te podatke pa bi potem vizualizirali na način, da bi se videlo kam država vlaga denar (občine/regije), koliko, in na katera področja. Poleg tega bi lahko uporabnik kliknil na občino in bi se mu prikazali vsi projekti iz te občine.
Na MJU mi sicer niso znalo povedati koliko je ta zadeva povezana s projektom "Država za razvoj Slovenije" - http://www.vlada.si/teme_in_projekti/drzava_za_razvoj_slovenije/, bi bilo pa zanimivo na enem mestu zbrati vsa razvojna sredstva in vse subvencije države.
Namreč, pri tem projektu Država za razvoj Slovenije se vidi, da je slovenska vlada kot razvojno pomoč štela tudi sredstva za zapiranje (!) rudnika Trbovlje Hrastnik, sanacijo NLB, neke subvencije mastodontom ala Slovenskim železnicam, itd. V bistvu so me na to stran opozorili na Evropski komisiji, kjer so se prav zgražali kaj Slovenija šteje kot razvojna sredstva. Takod a bib ilo tukaj fino narediti eno analizo v kaj hudiča mi sploh vlagamo razvojni denar.
OK, še dve ideji za vire podatkov. Prvi vir subvencij in nepovratnih sredstev je Supervizor (iskanje izplačil kjer je namen vseboval ~* "subvencija", "dotacija" ali "nepovratna sredstva"). Drugi vir pa MFERAC knjižbe v Supervizorju, kjer je šlo za plačilo zapadlih poroštev bankam. Primer: http://supervizor.kpk-rs.si/organ/16110/podj/68297530/ (Plačila zapadlih poroštev privatnim podjetjem ter Plačila zapadlih poroštev fizičnim osebam). Ti podatki žal niso v obliki baze, bi jih pa lahko pridobili po ZDIJZ ali poscrapali iz Supervizorja.
V glavnem, za samo programiranje bo verjetno na voljo kakšne 2000 EUR. To sicer ni veliko, ampak finance tukaj verjetno niso glavni motiv...
Komentarji
Vse skupaj je v analize-wip branchu, v GitHub repositoryju.
https://github.com/ubuntu-si/analize-ijz/tree/analize-wip
ubuntu-si organizacijo na GitHubu sem izbral bolj priloznostno, na predlog dz0nyja. Najbrz bi enkrat v prihodnosti bilo smiselno ustvarit specificen projekt za to, ali pa vsaj prestopit pod okrilje neke bolj primerne, ze obstojece organizacije.
Glede financ -- res niso motiv, rajsi vidim, da se z njimi pokrije kaksne hackathone, dogodke ali pa morebitne stroske gostovanja.
So v ISPAP bazi tudi podatki o oddelanih urah izven normalnega delovnega casa, i.e. ure, katere bi pokrili dodatki za dodatno delo, dezurstvo, stalno pripravljenost?
Recimo:
Ampak v bistvu me trenutno bolj zanima kdo bi sodeloval pri onih dveh projektih, ki sem jih omenil zgoraj.
Stvar bi bilo relativno enostavno poscrapeat, vse gre skozi XHR requeste in se vraca v JSON obliki.
Ne razumem pa negativnih vrednosti zneskov na dnu te razpredelnice.
https://github.com/ubuntu-si/analize-ijz/tree/master/drzava-za-razvoj-slovenije
V nadaljevanju vas vabimo k javni razpravi o Priročniku za odpiranje podatkov javnega sektorja. Priročnik, namenjen organom javnega sektorja, nastaja na podlagi spremembe predpisov (ZDIJZ-E in Uredbe o posredovanju in ponovni uporabi informacij javnega značaja), katerih temeljni cilj je pospešitev uporabe oziroma ponovne podatkov oziroma zbirk podatkov, ki se preko različnih javnih nalog zbirajo v javnem sektorju. V največji možni meri naj bi pravica pravnih in fizičnih oseb do ponovne uporabe zbirk podatkov zagotavljala preko »odprtih podatkov«, spletno (na enotni nacionalni točki) objavljenih in dostopnih v strojno berljivih formatih, ki omogočajo enostavno in brezplačno uporabo za različne storitve in produkte (tudi v pridobitne namene).
S priročnikom želimo preko logičnih korakov prikazati praktične primere priprave dokumentov za ponovno uporabo in primere dobrih praks v celotnem procesu odpiranja podatkov. V prvi fazi nastaja splošen priročnik, namenjen povprečnemu zavezancu. Predvidevamo, da bomo v nadaljevanju priročnik dopolnjevali, predvsem tudi glede specifičnih področij. Načrtujemo tudi poseben priročnik za kulturne institucije (nove zavezance za ponovno uporabo).
http://www.transparency.si/projekti/proracuni-obcin/
Državni projekti (iz proračuna 2015):
http://www.transparency.si/projekti/drzavni-projekti/
Smo pa razmišljali, da bi bilo dobro dobiti še zgodovinske podatke in vse skupaj razširiti na časovno komponento.
https://pravokator.si/index.php/2016/06/19/dve-vizualizaciji-odprtih-podatkov/