REPOZITORIJ > REZULTATI

Doktorska disertacija

Algoritmi za učenje regresijskih dreves in ansamblov iz spremenljivih podatkovnih tokov

Avtor(ji): Elena Ikonomovska (Avtor), Sašo Džeroski (Mentor), João Gama (Somentor)

Datum zagovora: 12.10.2012

Organizacija: MPŠ - Mednarodna podiplomska šola Jožefa Stefana

PID: 20.500.12556/ReVIS-13610

Ogledi: 7 | Prenosi: 10

Povzetek

V disertaciji obravnavamo problem učenja različnih vrst odločitvenih dreves na podlagi podatkovnih
tokov, ki se spreminjajo v času. Posebej se posvetimo študiju sprotnih (online)
algoritmov strojnega učenja za učenje regresijskih dreves, linearnih modelnih dreves, opcijskih
dreves za regresijo, več-kriterijskih modelnih dreves in ansamblov modelnih dreves na
podlagi podatkov iz časovnih tokov. Gre za najbolj reprezentativne in pogosto uporabljene
modele iz skupine interpretabilnih napovednih modelov.
Podatkovni tok je neomejeno zaporedje podatkov (števil, koordinat, večdimenzionalnih
točk, n-terk ali objektov poljubnega tipa). Zanj je značilna visoka frekvenca vhodnih
podatkov, katerih porazdelitve niso stacionarne. Dejanske praktične primere, v katerih potrebujemo
obdelavo podatkovnih tokov, predstavljajo raznovrstni sistemi za upravljanje z
mrežami senzorjev, za nadzor učinkovitosti inteligentnih elektro-omrežij, prometnih zastojev
v mestih, ali za znanstveno raziskovanje podnebnih sprememb.
Ker tovrstnih podatkov ni mogoče preprosto shranjevati ali prenašati v centralno bazo
podatkov, ne da bi s tem preobremenili komunikacijsko infrastrukturo, jih je potrebno obdelovati
in analizirati sproti in na mestu kjer so, ob uporabi konstantne količine pomnilnika.
Pri učenju iz podatkovnih tokov je najpomembnejša naloga inkrementalno računanje nepristranskih
približkov raznih statističnih mer. V ta namen potrebujemo metode, ki omogočajo
implicitno zbiranje ustreznih vzorcev iz vhodnega podatkovnega toka in sproten izračun potrebnih
statistik.
V disertaciji smo pristopili k problemu izračunavanja nepristranskega približka cenilne
funkcije tako, da jo obravnavamo kot naključno spremenljivko. To nam je omogočilo uporabo
obstoječih verjetnostnih mej, med katerimi so bili najboljši rezultati doseženi s Hoe
dingovo mejo. Algoritmi, ki jih predlagamo v disertaciji, uporabljajo Hoe dingovo mejo
verjetnosti za omejitev verjetnosti napake približka srednje vrednosti vzorca iz zaporedja
naključnih spremenljivk. Ta pristop nam daje statistični mehanizem za skaliranje različnih
nalog strojnega učenja, ki jih obravnavamo v disertaciji.
Z našim raziskovalnim delom se posvečamo reševanju treh glavnih podproblemov, ki jih
srečamo pri učenju drevesnih modelov iz časovno spremenljivih podatkovnih tokov. Prvi
podproblem zadeva nestacionarnost konceptov in potrebo po informiranem in smiselnem
prilagajanju odločitvenega drevesa. V disertaciji predlagamo mehanizem za sprotno zaznavanje
sprememb, ki je vključen v inkrementalno naučeni model. Drugi podproblem je
kratkovidnost algoritmov za učenje odločitvenih dreves pri njihovem preiskovanju prostora
možnih modelov. Tega problema se lotimo s študijo in primerjalnim vrednotenjem sprotnih
opcijskih dreves za regresijo in ansamblov modelnih dreves. Predlagamo uporabo opcij za
izboljšanje zmogljivosti, stabilnosti in kvalitete običajnih drevesnih modelov. Tretji problem
je povezan z uporabnostjo predlaganega pristopa v nalogah več-kriterijskega napovedovanja.
V disertaciji predlagamo razširitev napovednega razvrščanja pri sprotnih problemih z
vključitvijo verjetnostnih približkov, ki so omejeni s Hoe dingovo mejo. Opravljene študije
so odprle mnogo zanimivih smeri za nadaljnje delo.
Algoritmi, ki jih predlagamo v disertaciji so empirično ovrednoteni na več stacionarnih
in nestacionarnih zbirkah podatkov za eno- in več-kriterijske regresijske probleme. Inkrementalni
algoritmi so se izkazali za boljše od obstoječih algoritmov za obdelavo v snopih,
pri čemer so se tudi ob variabilnosti v učnih podatkih izkazali z manj nihanji v napovedih.
Naše metode za zaznavanje sprememb in prilagajanje le-tem so se izkazale za uspešne
pri odkrivanju sprememb v realnem času in so omogočile primerne prilagoditve modelov.
Pokazali smo tudi, da opcijska drevesa bolj izboljšajo točnost običajnih regresijskih dreves
kot ansambli učnih metod. Zmožna so izboljšanja sposobnosti modeliranja danega problema
brez izgube robustnosti. Nenazadnje, primerjalno ovrednotenje eno-kriterijskih in
več-kriterijskih modelnih dreves je pokazalo da več-kriterijska regresijska drevesa ponujajo
primerljivo zmogljivost kot zbirka večjega števila eno-kriterijskih dreves, vendar so obenem
enostavnejša in lažje razumljiva.

Priloge

Citiraj to delo