OpenData skupina

Matthai Član
uredil/-a 21. April, 2016 v Programiranje
Torej, na IRCu smo se že nekaj pogovarjali glede odprtih podatkov. Zadeva se je začela z objavo podatkov o plačah javnih uslužbencev: https://github.com/ubuntu-si/analize-ijz

Ti podatki od Podčrto so sicer ena malce obdelana tabela podatkov o plačah v javnem sektorju (ISPAP). Te podatke sem pred kakšnim letom dobil od MJU kot informacijo javnega značaja.

ISPAP baze je za leta 2010 - 2014 okrog 583 Mb - zazipano. ISPAP baza ima 304 spremenljivke, obstaja pa še razširjena verzija, ki ima še precej več spremenljivk (vsebuje tudi oddelane ure).

Jaz sem vse različne kategorije prihodkov združil v 6 skupin:
- plača
- položajni dodatek
- ostali dodatki
- delovna uspešnost
- dodatno delo
- dežurstvo

Samo uvažanje, računanje in indeksiranje sicer na i7 mašini z 8 Gb RAMa traja približno en dan. Ko so podatki pripravljeni, se pa da relativno enostavno računati zadeve. Jaz sem recimo v PSQL naredil izračun kariernih poti, prehode med organi, itd.

Je pa pri tej bazi nekaj težav, ker ni bila ustrezno zdizajnirana. S tem mislim, da ni časovno zasnovana - da bi imeli podatki časovne veljavnosti. Se pravi če sem jaz 100% zaposlen v organu A do 11-tega v mesecu in se potem zaposlim v organu B (spet 100%), bo za ta mesec v bazi pisalo, da sem imel 200% zaposlitev. Bi se pa dalo te zadeve rekonstruirati z oddelanimi urami... Anyway, treba se je poglobiti tudi v vsebinski del.


Druga zadeva pa je, da so se na MJU precej napalili na odprte podatke. V ponedeljek sem bil pri njih na sestanku glede tega. V maju in juniju bi radi organizirali dva dogodka povezana z odprtimi podatki, na voljo so celo neke finance (4900 EUR). Kot partnerja je MJU pri tem projektu povabil Transparency Slovenija in IJS.
Iz tega se bo pokrilo dogodka (en bo novinarska konferenca, en bo verjetno hackaton), predlagali pa so, da bi naredili prezentacijo/analizo/vizualizacijo enega izmed naslednjih setov podatkov:

A. Občinski proračuni
Tukaj bi združili podatke realiziranih občinskih proračunov (imajo konte do K6, kar pomeni, da lahko delamo tudi primerjavo proračunov, npr. koliko dajejo občine za investicije in razvoj, koliko za plače,...), s podatki o številu zaposlenih (to lahko potegnemo iz ISPAP baze), številu prebivalcev v občini, površini občine, kilometrih cest,...

S tem bi se dalo meriti učinkovitost občin (npr. število cest vs. proračun za vzdrževanje in pluženje) in občine primerjati. V bistvu bi lahko zraven vključili še kakšne dodatne podatke (npr. vremenske =potreba po pluženju, kakovost cest,...).

Lahko pa bi občine enostavno primerjali s kakšnim preprostim klasifikatorjem (recimo kakšno hierarhično grupiranje) in skušali odkrivati "outlierje".

B. Vizualizacija projektov kjer država vlaga sredstva
Tale zadeva je precej preprosta. Obstaja baza različnih projektov (naziv, vrednost, trajanje, lokacija), te podatke pa bi potem vizualizirali na način, da bi se videlo kam država vlaga denar (občine/regije), koliko, in na katera področja. Poleg tega bi lahko uporabnik kliknil na občino in bi se mu prikazali vsi projekti iz te občine.

Na MJU mi sicer niso znalo povedati koliko je ta zadeva povezana s projektom "Država za razvoj Slovenije" - http://www.vlada.si/teme_in_projekti/drzava_za_razvoj_slovenije/, bi bilo pa zanimivo na enem mestu zbrati vsa razvojna sredstva in vse subvencije države.

Namreč, pri tem projektu Država za razvoj Slovenije se vidi, da je slovenska vlada kot razvojno pomoč štela tudi sredstva za zapiranje (!) rudnika Trbovlje Hrastnik, sanacijo NLB, neke subvencije mastodontom ala Slovenskim železnicam, itd. V bistvu so me na to stran opozorili na Evropski komisiji, kjer so se prav zgražali kaj Slovenija šteje kot razvojna sredstva. Takod a bib ilo tukaj fino narediti eno analizo v kaj hudiča mi sploh vlagamo razvojni denar.

OK, še dve ideji za vire podatkov. Prvi vir subvencij in nepovratnih sredstev je Supervizor (iskanje izplačil kjer je namen vseboval ~* "subvencija", "dotacija" ali "nepovratna sredstva"). Drugi vir pa MFERAC knjižbe v Supervizorju, kjer je šlo za plačilo zapadlih poroštev bankam. Primer: http://supervizor.kpk-rs.si/organ/16110/podj/68297530/ (Plačila zapadlih poroštev privatnim podjetjem ter Plačila zapadlih poroštev fizičnim osebam). Ti podatki žal niso v obliki baze, bi jih pa lahko pridobili po ZDIJZ ali poscrapali iz Supervizorja.

V glavnem, za samo programiranje bo verjetno na voljo kakšne 2000 EUR. To sicer ni veliko, ampak finance tukaj verjetno niso glavni motiv...

Komentarji

  • zdobersek Član Ubuntu.si
    Sam sem ze malo procesiral podatke od Podcrto.si, precej preprosto sortiranje s Pythonom in rezultati v tekstovni obliki. Cez vikend in praznike bo najbrz dosti priloznosti, da zlozim skupaj malo bolj graficno prezentacijo v obliki, ki gre v brskalnik.

    Vse skupaj je v analize-wip branchu, v GitHub repositoryju.
    https://github.com/ubuntu-si/analize-ijz/tree/analize-wip

    ubuntu-si organizacijo na GitHubu sem izbral bolj priloznostno, na predlog dz0nyja. Najbrz bi enkrat v prihodnosti bilo smiselno ustvarit specificen projekt za to, ali pa vsaj prestopit pod okrilje neke bolj primerne, ze obstojece organizacije.

    Glede financ -- res niso motiv, rajsi vidim, da se z njimi pokrije kaksne hackathone, dogodke ali pa morebitne stroske gostovanja.
  • V bistvu bi se verjetno v okviru IJS dalo dobiti kakšen dedicated strežnik za to. Tam bi lahko imeli bazo in tudi web vmesnik... Bom povprašal šefe.
  • zdobersek Član Ubuntu.si
    Matthai je dejal/-a:
    Je pa pri tej bazi nekaj težav, ker ni bila ustrezno zdizajnirana. S tem mislim, da ni časovno zasnovana - da bi imeli podatki časovne veljavnosti. Se pravi če sem jaz 100% zaposlen v organu A do 11-tega v mesecu in se potem zaposlim v organu B (spet 100%), bo za ta mesec v bazi pisalo, da sem imel 200% zaposlitev. Bi se pa dalo te zadeve rekonstruirati z oddelanimi urami... Anyway, treba se je poglobiti tudi v vsebinski del.
    Ja, tale ureditev zaposlenosti glede na mesece je malce neprikladna. Podatki o oddelanih urah bi bili dosti bolj prirocni, sploh ce so natancno razporejeni po mesecih.

    So v ISPAP bazi tudi podatki o oddelanih urah izven normalnega delovnega casa, i.e. ure, katere bi pokrili dodatki za dodatno delo, dezurstvo, stalno pripravljenost?
  • V bistvu so za vsako kategorijo tudi ure zraven.

    Recimo:
    ...
     placa_razlika_zaradi_premestitve_a070bruto             | numeric(16,2) |
     placa_redno_delo_poracun_a900bruto                     | numeric(16,2) |
     polozajni_dodatek_c010bruto                            | numeric(16,2) |
     polozajni_dodatek_c011bruto                            | numeric(16,2) |
     polozajni_dodatek_c012bruto                            | numeric(16,2) |
    ...
     dodatek_dvojezicnost_c052bruto                         | numeric(16,2) |
     dodatek_ionizirajoce_sevanje_c060bruto                 | numeric(16,2) |
    ...
     placa_razlika_zaradi_premestitve_a070ure               | numeric(16,2) |
     placa_redno_delo_poracun_a900ure                       | numeric(16,2) |
     polozajni_dodatek_c010ure                              | numeric(16,2) |
     polozajni_dodatek_c011ure                              | numeric(16,2) |
     polozajni_dodatek_c012ure                              | numeric(16,2) |
    ...
     dodatek_dvojezicnost_c052ure                           | numeric(16,2) |
     dodatek_ionizirajoce_sevanje_c060ure                   | numeric(16,2) |

    Ampak v bistvu me trenutno bolj zanima kdo bi sodeloval pri onih dveh projektih, ki sem jih omenil zgoraj.

  • Mene zanimajo občinske primerjave — kje so podrobni podatki o proračunih? V repo-tu vidim samo podrobnosti plač.
  • Meni so jih obljubili v kakšnem tednu. Ko dobim, objavim.
  • zdobersek Član Ubuntu.si
    Razpredelnica na http://www.vlada.si/teme_in_projekti/drzava_za_razvoj_slovenije/ izgleda zanimiva. Fino bi bilo imet se novejse podatke, pa so zgleda hitro pozrli obljubo osvezevanja na vsake pol leta.

    Stvar bi bilo relativno enostavno poscrapeat, vse gre skozi XHR requeste in se vraca v JSON obliki.

    Ne razumem pa negativnih vrednosti zneskov na dnu te razpredelnice.
  • To so vračila denarja oz. subvencij. Ker recimo kakšno podjetje ni izpolnilo svojih obveznosti, so morali denar vrniti. Ali pa so jim pomotoma preveč nakazali.
  • Evo, podatke bomo menda dobili. Glede tega imamo 12. 05. 2016 ob 16.00 sestanek v prostorih TI Slovenia (Vožarski pot 12, Ljubljana). Kdo bi se pridružil?
  • zdobersek Član Ubuntu.si
    My regrets, ne bom utegnil, sem zasut v dayjobu. Zaradi istega razloga se nisem imel casa delat na Web-friendly prikazu podatkov, ki so ze v analize-ijz repozitoriju.
  • Včeraj na Dnevih info družbe sem izvedel, da MJU pripravlja prenovo portala za OD, da dela navodila za vsa ministrstva in na splošno bolj aktivno postopa, kar se tega tiče (lani bolj kot ne samo govorjenje). Dobra novica, a za počakat, da vidimo, kaj se izcimi.
  • Da, v bistvu pripravljajo Priročnik za odpiranje podatkov (za organe):

    V nadaljevanju vas vabimo k javni razpravi o Priročniku za odpiranje podatkov javnega sektorja. Priročnik, namenjen organom javnega sektorja,  nastaja na podlagi spremembe predpisov (ZDIJZ-E in Uredbe o posredovanju in ponovni uporabi informacij javnega značaja), katerih temeljni cilj je pospešitev uporabe oziroma ponovne  podatkov oziroma zbirk podatkov, ki se preko različnih javnih nalog zbirajo v javnem sektorju. V največji možni meri naj bi pravica pravnih in fizičnih oseb do ponovne uporabe zbirk podatkov zagotavljala preko »odprtih podatkov«, spletno (na enotni nacionalni točki) objavljenih in dostopnih v strojno berljivih formatih, ki omogočajo enostavno in brezplačno uporabo za različne storitve in produkte (tudi v pridobitne namene).

    S priročnikom želimo preko logičnih korakov prikazati praktične primere priprave dokumentov za ponovno uporabo in primere dobrih praks v celotnem procesu odpiranja podatkov. V prvi fazi nastaja splošen priročnik, namenjen povprečnemu zavezancu. Predvidevamo, da bomo v nadaljevanju priročnik dopolnjevali, predvsem tudi glede specifičnih področij. Načrtujemo tudi poseben priročnik za kulturne institucije (nove zavezance za ponovno uporabo).




  • Evo - proračuni občin:
    http://www.transparency.si/projekti/proracuni-obcin/

    Državni projekti (iz proračuna 2015):
    http://www.transparency.si/projekti/drzavni-projekti/

    Smo pa razmišljali, da bi bilo dobro dobiti še zgodovinske podatke in vse skupaj razširiti na časovno komponento.

  • Evo, opis projekta ter nekaj malega o stroških projekta:
    https://pravokator.si/index.php/2016/06/19/dve-vizualizaciji-odprtih-podatkov/
Za komentiranje se prijavite ali pa se vpišite.