REPOZITORIJ > REZULTATI

Doktorska disertacija

Metoda vrednotenja urejenosti značilk

Avtor(ji): Ivica Slavkov (Avtor), Sašo Džeroski (Mentor)

Datum zagovora: 26.07.2012

Organizacija: MPŠ - Mednarodna podiplomska šola Jožefa Stefana

PID: 20.500.12556/ReVIS-13604

Ogledi: 10 | Prenosi: 9

Povzetek

Urejanje značilk (ang. feature ranking) je naloga strojnega učenja pri kateri želimo
značilke iz dane množice podatkov urediti glede na neko mero pomembnosti. V disertaciji
obravnavamo urejanje značilk v okviru nadzorovanega učenja, zato je pojem pomembnosti
značilk opredeljen glede na ciljni koncept. Urejanje značilk je le redko obravnavano kot
samostojna naloga, saj jo skoraj vedno izvajamo pred drugimi nalogami strojnega učenja,
kot je na primer učenje napovednih modelov. Iz tega razloga v praksi vrednotenje algoritmov
za urejanje značilk vselej izvajamo glede na določen ciljni problem.
Osrednje težišče raziskav, predstavljenih v tej disertaciji, je vrednotenje urejenosti značilk.
Obravnavamo predvsem tri vidike njihovega vrednotenja. Prvi vidik je definiranje in kvanti
ficiranje resnične urejenosti značilk (ang. ground truth ranking). Rezultat tega dela raziskav
je kontrolirano okolje, ki ga lahko uporabimo za vrednotenje urejenosti značilk. Drugi vidik
je novo razvita metoda vrednotenja urejenosti značilk, ki je sposobna oceniti in primerjati
kakovost seznamov urejenih značilk dobljenih z različnimi metodami. Tretji vidik pa
sta identifikacija praktičnih scenarijev, kjer vrednotenje urejenosti značilk potrebujemo, ter
demonstracija koristnosti predlagane metode.
Začnemo s formalno opredelitvijo naloge urejanja značilk. Na osnovi definicij navedenih
v literaturi o izbiranju značilk (ang. feature selection) opredelimo nalogo urejanja značilk kot
reševanje problema izbiranja vseh relevantnih značilk in določitve njihove pravilne urejenosti.
Rezultat je seznam urejenih značilk.
Urejanje značilk je pogojeno z definicijo pomembnosti. Naredimo izčrpen pregled razli
čnih definicij in mer pomembnosti značilk opisanih v literaturi. Pri tem ugotovimo, da
je skupna pomanjkljivost vseh mer pomembnosti značilk v tem, da značilke obravnavajo
kot med seboj neodvisne. Da bi to pomanjkljivost presegli, predlagamo mero pomembnosti
značilk z upoštevanjem interakcij med značilkami, kot jih lahko določimo na osnovi informacijske
teorije. Z uporabo te definicije pomembnosti lahko rekonstruiramo resnično urejenost
značilk in tako vzpostavimo umetno nadzorovano okolje za vrednotenje urejenosti značilk.
V drugem koraku predlagamo novo metodo za vrednotenje urejenosti značilk. V intuitivnem
smislu metoda temelji na uporabnosti urejanja značilk kot filtrirne metode (ang.
filter method) pri izbiranju značilk. Gre za formaliziran algoritemski postopek, ki temelji
na postopni gradnji podmnožic značilk in učenju napovednih modelov na teh podmnožicah.
Rezultat metode vrednotenja so t.i. krivulje napak (ang. error curves), ki prikazujejo kako
(ali na kakšen način) so posamezne značilke razporejene znotraj danega seznama značilk.
Omenjene krivulje lahko nadalje uporabimo za primerjalno vrednotenje kakovosti različnih
metod urejanja značilk.
Metodo vrednotenja urejenosti testiramo v nadzorovani situaciji, ki temelji na omenjeni
definiciji resnične urejenosti značilk. V poskusih znani resnični urejenosti značilk dodajamo
različne nivoje šuma ter jih nato vrednotimo s predlagano metodo. Preizkusili smo tako
enakomerno kot spremenljivo dodajanje šuma. Rezultati kažejo, da metoda uspešno zazna
padec kvalitete urejenosti značilk pri uporabi višjih nivojev šuma.
Zadnji prispevek disertacije zajema tri empirične študije, ki se navezujejo na različne
domene. Prva študija raziskuje vedenje različnih algoritmov za urejanje značilk, tako na
sintetičnih kot na realnih podatkih. Rezultati kažejo, da je metoda ReliefF najboljša pri
urejanju značilk v sintetičnih podatkih. Pri realnih podatkih ni bilo nobene statistično
pomembne razlike v kvaliteti urejenosti seznamov zgrajenih z metodo ReliefF in metodo
računanja informacijskega prispevka (ang. information gain).
Druga študija preučuje uporabnost ansamblov seznamov urejenih značilk (ang. feature
ranking ensembles { FREs). Cilj analize je bilo ugotoviti pod kakšnimi pogoji dobimo s pomo
čjo ansamblov sezname boljše kakovosti kot z metodami za gradnjo posameznih seznamov
urejenih značilk. Rezultati kažejo, da ansambli dosegajo boljše rezultate le, če uporabljamo
nestabilne osnovne metode za urejanje značilk, kot je na primer metoda naključnih gozdov.
Tretja študija sega na področje raziskav rakavih bolezni, oz. natančneje, na področje
embrionalnih tumorjev (ET). Cilj analize je bil določiti ključne gene, ki so povezani z agresivnostjo
tumorja. Naša metoda je v tej nalogi pomagala prepoznati metodo za urejanje
značilk, ki je ustvarila najbolje urejen seznam potencialnih genov. Rezultati so bili podkrepljeni
tudi s poznejšo rekonstrukcijo genskih mrež za gene, ki se nahajajo na vrhu urejenega
seznama potencialnih genov.
Disertacijo zaključujemo s predstavitvijo možnosti nadaljnjega dela na tem področju.
Prva in najpreprostejša razširitev se dotika področja izvedenega eksperimentalnega vrednotenja.
V našem delu smo namreč upoštevali zgolj klasifikacijske in regresijske ciljne koncepte,
metodologijo pa bi lahko razširili tudi na strukturirane ciljne spremenljivke. Druga
možna smer razvoja tega dela bi lahko bila kombinacija več vidikov urejenosti značilk,
vključno npr. s stabilnostjo seznamov urejenih značilk. Končno bi lahko pri raziskavah,
poleg napovedne točnosti v okviru napovednega modeliranja, upoštevali tudi druge uporabnostne
vidike urejenih seznamov značilk. Kot primer bi lahko služila zadnja empirična
študija, v kateri so bile urejene značilke uporabljene za rekonstrukcijo genskih mrež.

Priloge

Citiraj to delo