REPOZITORIJ > REZULTATI

Doktorska disertacija

Odkrivanje zakonitosti iz podatkov v okolju spletnih servisov

Avtor(ji): Vid Podpečan (Avtor), Nada Lavrač (Mentor)

Datum zagovora: 25.03.2013

Organizacija: MPŠ - Mednarodna podiplomska šola Jožefa Stefana

PID: 20.500.12556/ReVIS-13619

Ogledi: 6 | Prenosi: 10

Povzetek

Disertacija obravnava razvoj novih scenarijev odkrivanja znanja v modernem okolju
za podatkovno rudarjenje z uporabo principov servisno orientirane arhitekture, spletnih
servisov, interaktivnih delotokov, ontologij ter avtomatske gradnje delotokov za
podatkovno rudarjenje.
Razvili smo orodje Orange4WS, ki nadgrajuje Orange, obstoječe odprtokodno orodje
Orange za podatkovno rudarjenje. Orange4WS omogoča enostavno uporabo spletnih
servisov s pomočjo generatorja programske kode komponent delotokov ter ponuja
orodja za razvoj spletnih servisov po principu razvoja od zgoraj navzdol. Ta orodja
so uporabljena za razvoj spletnih servisov v domenah sistemske biologije, rudarjenja
podatkov, rudarjenja besedil in procesiranja naravnega jezika. Orange4WS vključuje
tudi ontologijo odkrivanja znanja, ki določa relacije med komponentami v scenarijih
za odkrivanje znanja, ter načrtovalca delotokov, ki omogoča samodejno gradnjo
delotokov za rudarjenje podatkov. Delovanje orodja Orange4WS je prikazano in
ovrednoteno na več primerih uporabe.
Z uporabo orodja Orange4WS sta bili razviti dve napredni metodologiji za analizo podatkov
s področja sistemske biologije: SegMine in odkrivanje kontrastnih podskupin
(contrasting subgroup discovery). Metodologija SegMine omogoča semantično analizo
podatkov o izraženosti genov s povezavo algoritma za semantično odkrivanje
podskupin s postopkom interaktivnega hierarhičnega razvrščanja v skupine ter s sistemom
Biomine za verjetnostno odkrivanje povezav. Komponente metodologije Seg-
Mine uporabljajo prosto dostopne vire kot npr. ontologijo genov (Gene Ontology,
GO), enciklopedijo genov in genomov (Kyoto Encyclopedia of Genes and Genomes,
KEGG), bazo interakcij med geni (Entrez) ter številne druge javno dostopne podatkovne
baze. SegMine omogoča razlago podatkov ter postavljanje znanstvenih
hipotez z združevanjem eksperimentalnih podatkov in javno dostopnega znanja.
Metodologija je implementirana v orodju Orange4WS kot množica interaktivnih
komponent delotokov ter ovrednotena na dveh naborih podatkov: znanem naboru
o kliničnem testiranju akutne limfoblastne levkemije (ALL) ter naboru podatkov
o senescenci človeških zarodnih celic (MSC). Ekspertna analiza podatkov o zarodnih
celicah z metodologijo SegMine je vodila v oblikovanje treh novih znanstvenih
hipotez.
Predstavljena je tudi metodologija za odkrivanje kontrastnih podskupin, katerih ni
mogoče najti z uporabo klasičnih metod odkrivanja podskupin. Metodologija predlaga
tristopenjski pristop, v katerem sta odkrivanje podskupin v prvem in zadnjem
koraku dopolnjena z določitvijo kontrastnih razredov v vmesnem koraku. Koraki
metodologije, razlike s klasičnim odkrivanjem podskupin ter primeri funkcij iz teorije
množic za definiranje kontrastnih razredov so predstavljeni in ponazorjeni na preprostem
primeru. Metodologija je uporabljena v domeni sistemske biologije, predstavljeni
pa so rezultati njene uporabe na časovni vrsti s podatki o izraženosti genov
z virusom okuženih rastlin krompirja (Solanum tuberosum) ter ekspertna analiza
rezultatov. Metodologija je implementirana v orodju Orange4WS kot nabor interaktivnih
komponent delotokov.
Disertacija doprinaša tudi k razvoju odprtokodne programske opreme v znanosti.
Orodje Orange4WS, implementaciji metodologij SegMine in odkrivanja kontrastnih
podskupin ter ostali primeri uporabe orodja Orange4WS so dostopni širši javnosti,
kar omogoča ponovitve eksperimentov ter prilagajanje in dopolnjevanje delotokov.

Priloge

Citiraj to delo