Nagel razvoj strojnega učenja in optimizacije črnih skrinjic je privedel do večje odvisnosti od primerjalnih podatkov za vrednotenje in primerjavo algoritmov na različnih področjih, vendar pa učinkovito izkoriščanje teh podatkov otežujejo izzivi, kot so sintaktična raznolikost, semantična dvoumnost in pomanjkanje standardizacije. Pričujoča disertacija se ukvarja s temi izzivi in zagovarja …
V disertaciji predstavljamo nove metode za odkrivanje enačb (ang. equation discovery, ED), ki temeljijo na uporabi verjetnostnih gramatik. ED in simbolna regresija obravnavata problem iskanja simbolnega matematičnega modela, ki najbolje opisuje izmerjene podatke. Modeli so lahko različnih oblik, od preproste algebrajske enačbe do kompleksnega sistema diferencialnih enačb. Tradicionalno znanstveniki enačbe …
Onesnažila, ki vzbujajo nastajajočo zaskrbljenost (CEC), so tipične organske spojine naravnega ali sintetičnega izvora ter produkti njihove razgradnje in pretvorbe (TP) s potencialno škodljivimi učinki na človeka, bioto in okolje. Te spojine so izjemno pomemben del eko-ekspozoma (EE). Njihova identifikacija in kvantifikacija ter raziskovanje njihovega okoljskega obnašanja bistveno večajo naše …
Tema te disertacije je integracija kompleksnih vozlišč v drevesa za napovedno razvrščanje (DNR). DNR-ji so uveljavljeni modeli v strojnem učenju, ki jih lahko uporabimo za vrsto različnih nalog, med drugim napovedovanje strukturiranih vrednosti in polnadzorovano učenje. Zgrajeni so s požrešnim rekurzivnim algoritmom, ki ima dve šibki točki. Prva težava je …
Večina metod za podatkovno rudarjenje, strojno učenje in statistično analizo podatkov temelji na predpostavki, da so podatki neodvisni in enako porazdeljeni (ang. independent and identically distributed – i.i.d.). To pomeni, da morajo biti učni primeri med seboj neodvisni ter imeti enako verjetnostno porazdelitev. Vendar so primeri, ko podatki niso i.i.d., …
V disertaciji obravnavamo nalogo polinomske regresije, t.j. indukcijo regresijskih modelov, ki temeljijo na polinomskih enačbah, iz podatkov. Naš cilj je namreč izboljšanje in razširitev obstoječih pristopov za učenje modelov polinomske regresije v več smereh. Najprej smo izboljšali obstoječe metode za obravnavanje problema pretiranega prilagajanja (angl. overfitting) kot tudi obstoječe metode …
V disertaciji obravnavamo problem učenja različnih vrst odločitvenih dreves na podlagi podatkovnih tokov, ki se spreminjajo v času. Posebej se posvetimo študiju sprotnih (online) algoritmov strojnega učenja za učenje regresijskih dreves, linearnih modelnih dreves, opcijskih dreves za regresijo, več-kriterijskih modelnih dreves in ansamblov modelnih dreves na podlagi podatkov iz časovnih …
Domena podatkovnega rudarjenja se ukvarja z analizo različnih vrst podatkov. Podatki, ki se običajno uporabljajo v podatkovnem rudarjenju, so po navadi v obliki ene same tabele, kjer vsaka vrstica vsebuje vrednost atributa, t.j., spremenljivke ki so primitivnega podatkovnega tipa. Obstaja vedno več zanimanjaVendar pa za strukturirane (kompleksne) podatke, kot so …
Urejanje značilk (ang. feature ranking) je naloga strojnega učenja pri kateri želimo značilke iz dane množice podatkov urediti glede na neko mero pomembnosti. V disertaciji obravnavamo urejanje značilk v okviru nadzorovanega učenja, zato je pojem pomembnosti značilk opredeljen glede na ciljni koncept. Urejanje značilk je le redko obravnavano kot samostojna …
Matematično modeliranje dinamičnih sistemov na osnovi opazovanja obnašanja sistema, pogosto imenovano identifikacija sistema, temelji v bistvu na dveh nalogah: identifikaciji strukture in identifikaciji parametrov modela. Cilj prve naloge, imenovane identifikacija strukture, je določiti ustrezno strukturo modela, tj. funkcionalno obliko modela. V praksi navadno strokovnjak poda strukturo modela v problemski domeni, …