[API] [Isvu-koordinator] muke po isvu - obada podataka

Gjuro Kladaric gjuro at ffzg.hr
Sat Nov 1 15:37:28 CET 2014


pozdrav,

hvala na suosjecanju

podaci su se promijenili naprosto zato sto je skup podataka u ISVU-u ziva stvar i mijenja se iz
minute u minutu, vec kako neki student nesto polozi, pa se to odnosi i na prosjeke nekih studenata
koji su upisali studij ili pojedini kolegij nekih prijasnjih godina (ovisno o zahtjevu za
informacijom uprave)

uzmes podatke u ponedjeljak, pa onda u srijedu, i ta dva skupa podataka pokusavas spojiti po nekom
zajednickom podatku i - svari su gotovo iste, ali se se malcice promijenile (na pola milijuna
kolegija promjena ima par desetaka ili par stotina)...   i kako ces ona pomiriti te nejednake
skupove podataka?

sumnjam da se pronaci neko rjesenje jer isvu ekipa ne zeli razgovarati ni o cemu osim o smijesnom
pikanju podataka kroz rest api

a jedino suvislo rjesenje je u ponoc zaustaviti sve i napraviti sliku baze u tom trenutku pa onda
te podatke koristiti kao konzistentan skup podataka, natocen u neku neprodukcijsku, readonly bazu
koju onda mozemo napadati sikvelom kako bog zapovijeda i cemu milijuni redaka onda nisu problem
niti traju vise od par sekundi

dakle, dump baze u nekom konzistentnom trenutku (naravno, svakome njegov
zbog-privatnosti-podataka-obranicen podskup od svih podataka u ISVU bazi) i onda koristenje po
zelji

to sto nasa uprava zeli je rjesivo, iako cesto trazi vremena i truda, ali to sto ISVU ekipa ne
zeli razgovarati o tome - to me vise boli :-)

i - nerjesivo je...

srdacno,

gjuro kladaric

voditelj informatike

ffzg.hr


> Bok,
>
> javljam se čisto zato jer smo i mi na StomatoloĹĄkom fakultetu u Zg takoÄ‘er
> u postupku reakreditacije. Mi imamo puno manje studenata (650 do 700), pa
> nekakvi naťi veći ISVU upiti traju maksimalno pola sata... No, ono ťto mi
> je zapelo za oko u tvom tekstu (pardon ako sam krivo razumio) - naknandno
> ste skuĹžili da je doĹĄlo do promjena u ocjenama i upisanim predmetima sada u
> roku jednog dana - za neke proťle ak. god? Mi za akreditaciju također
> radimo nad zadnjih pet ak. godina (zaključno sa 2013./14. ak. god.) i nebi
> mi palo napamet da provjerim dali je nekom studentu dodan neki predmet ili
> ocjena za proĹĄlu ak. god., i to sada u 2014./15. ak. god. u roku jednog
> dana... U principu ne znam kako vi inače radite ili kako se na drugim
> fakultetima radi (mislim na upise u novu ak. god.), ali sada je već 11.
> mjesec i mi smatramo da je naše stanje sa svim prošlim ak. god. - čisto.
>
> No, u principu razumijem ťto ste htjeli reći - htjeli biste imati spreman
> upit, ne zamarajući se pitanjem dali je neťto mijenjano. Ja na SFZG ne mogu
> reći da mi treba dump baze, ali moĹžda bi drugačije razmiĹĄljao da imamo
> toliko studenata kao i vi, ne znam...
> Suosjećam za vaťe probleme i nadam se da ćete uskoro pronaći rjeťenje! Znam
> da se mučite i da uprava misli da je to sve jednostavno...
>
> Lp
>
> Marko
>
> 2014-10-31 15:05 GMT+01:00 Ivana Sudarevic <isudarev at ffzg.hr>:
>
>> pozdrav svima,
>>
>>
>>
>> filozofski fakultet u zagrebu trenutno prolazi postupak reakreditacije
>> koji provodi agencija za znanost i visoko obrazovanje te se spremamo
>> primiti strucno povjerenstvo
>>
>>
>>
>> njih, izmedju ostaloga, zanimaju podaci o studijima i studentima za prvih
>> pet generacija bolonjskih studija (osvojene bodove po nekim kriterijima za
>> pojedinu generaciju studenata, prosjek na studiju i sl.) sto se vodi u ISVU
>>
>>
>>
>> buduci da studente u ISVU ne vodimo od 2005/06. nego tek od 2007/08.,
>> odlucili smo obraditi podatke za sve generacije od 2007/08. do 2013/14. te
>> ih prezentirati povjerenstvu
>>
>>
>>
>> ovu smo obradu vec radili prije par mjeseci (i tada nam je trebalo dva
>> tjedna da iznjedrimo konacne tablice), ali kako je posjet povjerenstva
>> odgodjen i umjesto u srpnju dogodit ce se u studenome, Uprava je pozeljela
>> da osvjezimo podatke te da povjerenstvu predocimo i pomake koji su se
>> dogodili s tim podacima u zadnjih nekoliko mjeseci
>>
>>
>>
>> dakle, tijekom prvog postupka obrade tih podataka iz ISVU-a nisam
>> metodicki biljezila postupak, ali sada jesam pa imam zelju i potrebu da
>> svima prikazem s kakvim smo se problemima susreli
>>
>>
>>
>> nadam se da cu ponukati sve koji se prepoznaju u tim mukama da podupru nas
>> zahtjev centru potpore da nama (ali i svima kojima to treba) omoguce 'dump
>> baze'
>>
>>
>>
>>
>>
>> za obradu su mi bili potrebni sljedeci podaci:
>>
>>
>>
>> ¡         sifra upisnog lista ILI jmbag/paralelni studij/akademska godina
>>
>> ¡         akademska godina upisa na studij
>>
>> ¡         upisani ESS
>>
>> ¡         predmeti na ESS
>>
>> ¡         ECTS predmeta
>>
>> ¡         status predmeta
>>
>> ¡         ocjene
>>
>> ¡         osvojeni ECTS na ESS
>>
>> ¡         ulazi li predmet u prosjek
>>
>>
>>
>> to je u brojkama: nesto preko 9000 studenata i preko 30 000 upisnih listova
>>
>>
>>
>> podatke sam odlucila preuzeti preko REST APIja jer za toliku kolicinu
>> podataka ne postoji dobar nacin preuzimanja iz aplikacije
>>
>>
>>
>> izrada izvjestaja iz aplikacije traje satima zbog cega najcesce pukne veza
>> s bazom
>>
>>
>>
>> mamila me pomisao da pokusam smanjiti opseg izvjestaja iz aplikacije tako
>> da umjesto xml-a odaberem excel ravni izvjestaj koji dopusta selekciju
>> podataka pa bih mogla preuzeti samo one podatke koji mi iz pojedinog
>> prozora trebaju
>>
>> medjutim, i takav izvjestaj 'pukne' jer je preogroman - naprosto zbog
>> velikog broja studenata i kolegija - te se javlja poruka da izvjestaj
>> prelazi maksimalan broj redaka koji je dopusten u excelu (cca. 65500)
>>
>>
>>
>> naravno, sjetila sam se i skladista podataka, ali to vec dugo uopce ne
>> koristimo jer radi samo u internet exploreru i daje mogucnost pregleda
>> tablice s max. 5000 redaka
>>
>>
>>
>> isprva mi se cinilo najbolje da preko REST APIja uzmem izvjetaj o
>> detaljnim upisnim listovima (prije toga, naravno, studente upisane u gore
>> navedene akademske godine pa za te jmbag-e upisne listove da bih dosla do
>> sifri upisnih listova za koje zelim detaljne podatke...) i dopunim ga
>> podacima iz izvjestaja o ispitima te izvjestaja o priznatim ispitima
>>
>>
>>
>> no, kada sam nakon 4 sata preko REST APIja dobila XML s detaljnim upisnim
>> listovima, to je bio dokument tezak preko 300 MB i sa stotinama tisuca
>> redaka u excelu te ga ni s novim racunalom s vrlo dobrim performansama (ako
>> inzistirate: i7-4770 @3.40GHz, 4 GB RAM, win8.1 x64, ) nisam mogla
>> obradjivati - jedva da se i otvorio
>>
>>
>>
>> shvatila sam da nema teoretske sanse da taj ogromenski izvjestaj uparim s
>> jos dva takva pa sam krenula traziti drugo rjesenje
>>
>>
>>
>> jedini izvjestaj za koji znam da sadrzi sve podatke koje trebam (i naravno
>> hrpetinu drugih koje ne trebam, ali izvjestaj ne mogu filtrirati), a
>> dostupan je preko REST APIja, jest onaj o sumarnim podacima za studenta
>>
>>
>>
>> i tako sam preko REST APIja za 'samo' 2 sata dobila XML dokument sa 'svim
>> sto mi treba'
>>
>>
>>
>> taj je XML bio tezak gotovo 500 MB, i imao je 11 milijuna redaka (a excel
>> gotovo 500 000 redaka)
>>
>>
>>
>> ni s njim nisam mogla nista suvislo raditi u excelu :(
>>
>>
>>
>> no, uz pomoc prirucno izradjenog programa ucitali smo tih 11 milijuna redaka XML-a u cjelini i
>> onda smo nacinili dokument koji je bio oko 10% velicine izvornog XML dokumenta jer smo:
>>
>> -    izbacili sve suvisne podatke
>>
>> -    preimenovali sve duge nazive elemenata i atributa u krace
>>
>> -    ispeglali (ucinili 'plosnatim' [flat]) XML tako da sve jednokratne elemente prebacimo u
>> atribute viseg elementa u hiijerarhiji) pa tako smanjili broj linija XML-a i postigli da se
>> cijeli predmet prikaze jednim XML elementom u jednoj liniji
>>
>>
>>
>> takav je dokument bilo moguce ucitati u excel, ali je broj linija (polozenih i nepolozenih
>> predmeta) i dalje bio isti - nesto ispod pola milijuna
>>
>>
>>
>> i - i dalje je bilo neupotrebljivo sporo
>>
>>
>>
>> buduci da se preko REST APIja u sumarnim podacima ne daje podatak o
>> ukupnom broju osvojenih ects bodova, to je prvo sto sam morala napraviti u
>> excelu i tada sam uocila da studenti imaju previse ects bodova na studiju
>>
>>
>>
>> analizom podataka utvrdila sam da izvjestaj iz REST APIja za dvopredmetne
>> studnete duplira podatke o predmetima za oba elementa strukture studija!
>>
>>
>>
>> razlika izmedju izvjestaja o sumarnim podacima iz aplikacije i REST APIja
>> je u tome sto (izmedju ostaloga) izvjestaj iz REST APIja kod dvopredmetnih
>> studenata daje odvojene podatke za svaki ESS, dok izvjestaj preko
>> aplikacije to ne daje
>>
>>
>>
>> medjutim, u izvjestaju iz REST APIja predmeti nisu razdvojeni po ESS nego
>> su, dakle, svi predmeti popisani i na jednom i na drugom ESS, a osvojeni
>> ECTS bodovi se zbrajaju dva puta
>>
>>
>>
>> sve je skupa trajalo cetiri dana - razmatranje problematike na koji nacin
>> uzeti podatke iz ISVU-a, koji mi izvjestaj treba, uzimanje izvjestaja,
>> pokusaj rada s dokumentima koje sam dobila i pokusaj obrade - i na kraju
>> nemam nista
>>
>>
>>
>> i dalje imam dva izvjestaja iz kojih moram, uz pomoc informaticara,
>> pokusati doci do desetak podataka koji mi zapravo trebaju - da bih uopce
>> pocela raditi obradu i prikaz podataka za reakreditaciju
>>
>>
>>
>> za one koji su procitali sve do ovdje, evo i kako je epopeja zavrsila -
>> kombiniranjem tri 'plosnata', obradjena i 'osakacena' XML -a u excelu sam
>> dobila konacni dokument s 9 stupaca i oko 230 000 redaka...e s tim se vec
>> daju raditi daljnje obrade i izvuci nekakav tablicni prikaz :)
>>
>>
>>
>> e da, bilo je jos nesto veselo - kada sam napokon dobila podatke koje mi
>> trebaju u formi s kojim mogu nesto raditi i kada sam ih krenula
>> obradjivati, shvatim da su se neki podaci u sustavu promijenili u
>> vremenskom razmaku od jednog dana koliko je trajalo da nakon prvog
>> izvjestaja o upisnim listovima preuzmem drugi sumarnim podacima, a ista
>> stvar je i s podacima u trecem izvjestaju
>>
>>
>>
>> pojedini studenti vise nisu imali kolegije koje su prije imali, nekima su
>> evidentirane dodatne ocjene, nekima su kolegiji oslobodjeni
>> polaganja....sve je to zahtijevalo rucno ceprkanje po podacima,
>> trijebljenje ili nadopunjavanje
>>
>> umjesto da imamo mogucnost unaprijed oblikovani query provesti nad svjezim
>> podacima kad god pozelimo
>>
>>
>>
>> a tek kad sutra dodju novi zahtjevi uprave ili ministarstva, s jos ponekim
>> podatkom koji ih interesira, pa ce mi trebati nekih drugih deset podataka i
>> - 'ajmo sve ispocetka....
>>
>>
>>
>> uz to, podataka ce u sustavu biti sve vise i vise, a ne sve manje
>>
>>
>>
>>
>>
>> je li sada jasnije zasto mi trazimo da nam se isporuce podaci iz ISVU-a tako da ih mozemo
>> ponovno natociti u bazu i onda nad tim pravim database alatima raditi upite i obrade?
>>
>>
>>
>> a ljudi iz isvu-a se smiju na nase zahtjeve i objasnjavaju da se sve to moze kroz isvu REST API
>> :)
>>
>>
>>
>> kad smo na godisnjem druzenju o REST APIju zahtijevali da dobijemo 'dump baze' s nasim dijelom
>> podataka, bilo je kolega koji su tvrdili da se sve to moze...
>>
>> tko od ISVU korisnika ima ovakve potrebe i ovakve kolicine podataka?
>>
>>
>>
>> ovo sto sam opisala - izgubiti cetiri dana i ne dobiti nista - to je slika nefunkcionirajuceg
>> sustava
>>
>>
>>
>> to je naprosto jadno, neozbiljno i nedostojno sveucilisnog racunskog centra
>>
>>
>>
>> i to ne toliko cinjenica da isvu ekipa ne omogucava dobra rjesenja, nego sto sprecava dobre
>> mogucnosti
>>
>>
>>
>> kako da ja posluzim svoju upravu i akreditacijsko povjerenstvo korektnim odgovorima?
>>
>>
>>
>> a kao fol imamo 'aplikacijski sustav', 'sredisnju bazu', 'podatke', 'skladiste podataka', 'ekipu
>> koja sve to odrzava' itd...
>>
>>
>>
>> slusam savjete isvu ekipe i svih koji imaju sto reci :)
>>
>>
>>
>>
>>
>> Srdacan pozdrav,
>>
>> Ivana Sudarevic
>>
>> ---
>>
>> Ivana Sudarevic, prof.
>>
>> voditeljica Ureda za ISVU
>>
>> Filozofski fakultet Sveucilista u Zagrebu
>>
>> I. Lucica 3, Zagreb
>>
>> 01 6002 387
>>
>> isvu at ffzg.hr
>>
>>
>>
>> _______________________________________________
>> Isvu-koordinator mailing list
>> Isvu-koordinator at isvu.hr
>> http://list.srce.hr/list/listinfo/isvu-koordinator
>>
>>
>
>




More information about the api mailing list