Ogledi: 6 | Prenosi: 10
Večina metod za podatkovno rudarjenje, strojno učenje in statistično analizo podatkov temelji na predpostavki,
da so podatki neodvisni in enako porazdeljeni (ang. independent and identically distributed –
i.i.d.). To pomeni, da morajo biti učni primeri med seboj neodvisni ter imeti enako verjetnostno porazdelitev.
Vendar so primeri, ko podatki niso i.i.d., v praksi zelo pogosti. Tako so na primer živalske
vrste porazdeljene po prostoru nenaključno. Predpostavka i.i.d. je pogosto kršena zaradi avtokorelacije.
Najbolj splošna definicija avtokorelacije je, da je to prečna korelacija atributa samega s seboj. V
statistiki je časovna avtokorelacija definirana kot prečna korelacija med atributom procesa ob različnem
času. Pri analizi časovnih vrst je časovna avtokorelacija definirana kot korelacija med časovno odvisnimi
vrednostmi zaradi njihove relativne časovne bližine. V prostorski analizi je prostorska avtokorelacija
definirana kot korelacija med podatkovnimi vrednostmi, ki je nastala samo zaradi relativne bližine objektov,
na katero se nanašajo podatki. Definicija temelji na prvem Toblerjevem zakonu o geografiji, po
katerem “je vse povezano z vsem, vendar so bližje stvari bolj povezane kot oddaljene stvari.” Pri analizi
omrežij je avtokorelacija definirana s pomočjo načela homofilnosti, ki pravi, da vozlišča s podobnimi
vrednostmi težijo k medsebojni povezanosti.
V disertaciji najprej podamo jasno in splošno definicijo avtokorelacije, ki vključuje prostorsko in
omrežno avtokorelacijo za zvezne in diskretne spremenljivke. Nato predstavimo obširen pregled obstoje
čih mer za avtokorelacijo skupaj z metodami za analizo podatkov, ki jih uporabljajo. Osredotočimo se
na prostorsko in omrežno avtokorelacijo in predlagamo tri algoritme, ki upoštevajo spremenljivo avtokorelacijo
v okviru napovednega razvrščanja. Na ta način lahko obravnavamo klasifikacijske in regresijske
naloge ter napovedovanje strukturiranih spremenljivk. Ti trije algoritmi in njihovo empirično vrednotenje
so glavni prispevek disertacije.
Najprej predlagamo metodo podatkovnega rudarjenja SCLUS, ki izrecno upošteva prostorsko avtokorelacijo
pri učenju modelov za napovedno razvrščanje. Metoda temelji na gradnji odločitvenih
dreves za napovedno razvrščanje (DNR), pri kateri podatke razvrstimo v hierarhično strukturo s
skupinami med seboj podobnih podatkov ter vsaki skupini predružimo napovedni model. Naša metoda
omogoča učenje napovednih modelov za zvezne in diskretne ciljne spremenljivke (klasifikacija in regresija).
Metoda pravilno upošteva avtokorelacijo v podatkih in omogoča večnivojski vpogled v pojav
prostorske avtokorelacije. Napovedni modeli se prilagajajo lokalnim lastnostim podatkov in hkrati zagotavljajo
gladko spreminjanje napovedi v prostoru. Naš pristop ovrednotimo na več različnih realnih
problemih prostorske regresije in klasifikacije.
Problem “omrežnega sklepanja” je znan kot zahtevna naloga. V disertaciji predlagamo algoritem
podatkovnega rudarjenja z imenom NCLUS, ki izrecno upošteva avtokorelacijo pri gradnji napovednih
modelov na podatkih o omrežjih. Algoritem temelji na konceptu dreves za napovedno razvrščanje, ki jih
je mogoče uporabiti za razvrščanje, regresijo in klasifikacijo preprostih ali strukturiranih spremenljivk.
Naš pristop ovrednotimo na več različnih realnih problemih s področja socialnih in prostorskih omrežij.
Empirični rezultati kažejo, da naš algoritem deluje bolje kot navadna drevesa za napovedno razvrščanje,
zgrajena brez upoštevanja informacij o omrežjih, bolje kot metoda CLUS*, ki je prilagojena za analizo
prostorskih podatkov, a ne upošteva avtokorelacije, in bolje od drugih obstoječih pristopov.
Predlagamo tudi metodo podatkovnega rudarjenja NHMC za hierarhično večznačkovno klasifikacijo.
Motivacija za ta pristop je bil nedavni razvoj različnih algoritmov strojnega učenja za napovedovanje
funkcij genov, ki delujejo pod predpostavko, da lahko primeri sodijo v več razredov, ti razredi pa so
organizirani v hierarhijo. Poleg odvisnosti med razredi, je mogoče določiti tudi odvisnosti med primeri.
Cˇ eprav so te povezave identificirane in obširno raziskane v literaturi, še posebej v primeru omrežij interakcij
med proteini (IMP), pa še vedno niso dovolj upoštevane v okviru hierarhične večznačkovne
klasifikacije funkcij genov. Njihova uporaba uvaja avtokorelacijo in krši predpostavko neodvisnosti
med primeri, na kateri temelji večina algoritmov strojnega učenja. Poleg izboljšane napovedne točnosti
naučenih modelov, nam NHMC omogoča napovedi, ki so skladne s strukturo omrežja in konsistentno upoštevajo
dva različna vira informacij (hierarhične zbirke funkcijskih razredov in omrežij IMP). Primerjali
smo tri različna omrežja IMP (DIP,VMin MIPS pri kvasovkah) in njihovo napovedno točnost. Empirični
rezultati kažejo, da upoštevanje omrežne avtokorelacije izboljša napovedno točnost modelov, še posebej
v primeru, ko so omrežja IMP gosta. Metoda NHMC dosega boljše rezultate kot metoda CLUS-HMC
(ki ne upošteva omrežja) za oznake GO (Gene Ontology), ker so te bolj usklajene z omrežji IMP.