REPOZITORIJ > REZULTATI

Doktorska disertacija

Ansambli za napovedovanje strukturiranih vrednosti

Avtor(ji): Dragi Kocev (Avtor), Sašo Džeroski (Mentor)

Datum zagovora: 18.04.2011

Organizacija: MPŠ - Mednarodna podiplomska šola Jožefa Stefana

PID: 20.500.12556/ReVIS-13566

Ogledi: 8 | Prenosi: 8

Povzetek

Disertacija obravnava nalogo učenja modelov za napovedovanje strukturiranih
vrednosti, ki kot vhod vzamejo vektor vrednosti značilk in na izhodu podajo
napoved strukturirane vrednosti. Za razliko od klasifikacije in regresije, kjer
je na izhodu ena sama skalarna vrednost, je v našem primeru izhod, oziroma
napoved, podatkovna struktura kot na primer vektor ali usmerjeni graf brez
ciklov. Obravnavamo tako globalno kot lokalno napovedovanje strukturiranih
vrednosti: pri prvem uporabimo en sam model, ki poda napoved celotne strukture,
v drugem pa uporabimo zbirko modelov od katerih vsak napove del izhodne
strukture.
Pojem ansambla, to je zbirke napovednih modelov čigar napovedi združimo,
smo razširili na kontekst napovedovanja strukturiranih vrednosti. Ansambli
so izjemno učinkovit način za izboljšanje napovedne moči sestavnih modelov,
še zlasti v primeru modelov v obliki klasifikacijskih dreves. V tej disertaciji
predlagamo gradnjo ansamblov, ki vsebujejo drevesa za napovedno razvrščanje,
to je posplošena odločitvena drevesa: le ta so bila uporabljena za napovedovanje
različnih vrst strukturiranih vrednosti tako lokalno kot globalno.
Razvijemo metode za učenje več vrst ansamblov dreves za napovedno razvrščanje
tako za globalno kot lokalno napovedovanje različnih vrst strukturiranih vrednosti.
Obravnavamo različne naloge napovedovanja strukturiranih vrednosti,
kot so večciljna regresija, večciljna klasifikacija ter hierarhična večznačkovna
klasifikacija. Različne vrste ansamblov zajemajo metodo bagging, metodo
naključne gozdove, metodo naključnih podprostorov ter metodo bagging podprostorov.
Kombinacije le teh lahko uporabimo tako v kontekstu globalnega
napovedovanja z enim samim ansamblom kot tudi lokalnega napovedovanja z
zbirko ansamblov.
Temeljito ovrednotimo metode za gradnjo ansamblov za napovedovanje strukturiranih
vrednosti, še posebej metodi bagging in naklučni gozdovi, na vrsti
množic podatkov za vsakega od treh tipov strukturiranih vrednosti. Primerjamo
ansamble za globalno in lokalno napovedovanje, kot tudi posamezna drevesa
za globalno napovedovanje ter zbirke dreves za lokalno napovedovanje: primerjamo
napovedno moč modelov, oziroma metod za gradnjo ansamblov kot tudi
njihovo učinkovitost, to je čas izvajanja ter kompleksnost nastalih modelov.
Tako globalni kot lokalni ansambli imajo večjo napovedno moč kot individualni
modeli. Globalni in lokalni ansambli imajo enako napovedno moč, pri čemer
so globalni ansambli bolj učinkoviti in dajo manjše modele. Slednji potrebujejo
tudi manj dreves v ansamblu za doseganje maksimalne napovedne točnosti.
Opravimo tudi teoretično analizo računske kompleksnosti predlaganih metod.
Teoretične analize so v skladu z eksperimentalnimi rezultati, ki kažejo da so
najbolj učinkoviti globalni ansambli, še posebej naključni gozdovi. Analize tudi
kažejo da predlagane pristope lahko uporabimo za velike podatkovne množice,
ki so lahko velike po vsaki od naslednjih dimenzij: število atributov, število
primerov in velikost strukturiranega izhoda.
Razvite metode za gradnjo ansamblov uporabimo na treh praktično relevantnih
problemih in s tem dobimo tri podrobne študije primerov: primerjamo naše
rezultate z rezultati trenutno najboljših metod na ustreznih področjih uporabe.
Najprej, za boljše razumevanje odpornosti nekaterih vrst vegetacije, zgradimo
napovedne modele in jih uporabimo za generiranje kart stanja vegetacije v
državi Viktorija v Avstraliji. Nato na nalogi hierarhičnega označevanja medicinskih
rentgenskih posnetkov z ansambli za napovedovanje strukturiranih vrednosti,
dosežemo najboljše do sedaj objavljene rezultate označevanja. Končno s
temeljito eksperimentalno primerjavo na nekaj nalogah napovedovanja funkcij
genov v treh organizmih pokažemo, da z metodo bagging za gradnjo ansamblov
za napovedovanje strukturiranih vrednosti dosežemo boljše ali primerljive
rezultate z rezultati najboljših obstoječih metod na tem področju.
Na koncu predstavimo nekaj preliminarnih rezultatov, ki nadalje izkoristijo predlagane
pristope k gradnji ansamblov za napovedovanje strukturiranih vrednosti.
Najprej obravnavamo napovedovanje različnih vrst strukturiranih vrednosti, tudi
takih, ki jih še nismo obravnavali ter ustreznih mer razdalje nad njimi. Nato
predlagamo metodo za rangiranje značilk v kontekstu napovedovanja strukturiranih
vrednosti, ki temelji na metodi naklučnih gozdov. Nadalje predlagamo
novo metodo za gradnjo ansamblov, ki temelji na strategiji preiskovanja s
snopom in lahko neposredno nadzoruje stopnjo raznolikosti napovedi v ansamblu.
S tem odpremo vrsto smernic za nadaljne raziskave.

Priloge

Citiraj to delo