Ogledi: 8 | Prenosi: 7
Domena podatkovnega rudarjenja se ukvarja z analizo različnih vrst podatkov. Podatki, ki
se običajno uporabljajo v podatkovnem rudarjenju, so po navadi v obliki ene same tabele,
kjer vsaka vrstica vsebuje vrednost atributa, t.j., spremenljivke ki so primitivnega podatkovnega
tipa. Obstaja vedno več zanimanjaVendar pa za strukturirane (kompleksne) podatke,
kot so grafi, sekvence, mreže, besedila, slike, multimediski in relacijski podatki. Glavni izziv,
ki se ga v tei disertaciji lotimo, je predstavitev in obravnava rudarjenja različnih vrst strukturiranih
podatkov v enotni obliki. Teoretični okvir, ki združuje različne naloge podatkovnega
rudarjenja različnih podatkovnih tipov, bi pomagal formalizirati znanje o domeni in s
tem zagotoviti osnovo za nadaljnje raziskave, poenotenje in standardizacijo. Avtomatizacija
in celotna podpora procesa odkrivanja znanja iz podatkovnih baz prav tako predstavljata
pomemben izziv v domeni podatkovnega rudarjenja. Formalizacija osnovnih pojmov na
področju podatkovnega rudarjenja bi omogocila predstavitev podatkovnega rudarjenja in
reprezentacijo procesa podatkovnega rudarjenja strukturiranih podatkov ter obenem tudi
procesov odkrivanja znanj iz podatkov.
V tej disertaciji predlagamo referenčno modularno ontologijo za domeno podatkovnega
rudarjenja OntoDM, ki je neposredno utemeljena s potrebo po formalizaciji domene podatkovnega
rudarjenja. Ontologija OntoDM je zasnovana in implementirana z upoštevanjem
najučinkovitejših ontoloških praks in oblikovalskih načel. Uporablja temeljno formalno ontologijo
(BFO) kot predlogo in kot ontologijo na višji ravni, množico formaliziranih relacij
iz relacijske ontologije (RO) in drugih najrazvitejših ontologij; prav tako ponovno uporabi
razrede in relacije iz ontologije biomedicinskih raziskav (OBI), ontologije informacijskih artefaktov
(IAO) in ontologije programske opreme (SWO).
Ontologija OntoDM je sestavljena iz treh modulov, ki zajemajo različne vidike podatkovnega
rudarjenja. OntoDT podpira reprezentacijo znanja o podatkovnih tipih in temelji na
sprejetem ISO standardu za podatkovne tipe v računalniških sistemih. OntoDM-core formalizira
najpomembnejše entitete podatkovnega rudarjenja za reprezentacijo rudarjenja strukturiranih
podatkov v kontekstu teoretičnega okvira podatkovnega rudarjenja. OntoDMKDD
formalizira proces odkrivanja znanja in izhaja iz procesnega modela CRISP-DM (Cross
Industry Standard Process for Data Mining).
Modul OntoDT omogoča predstavitev podatkovnih tipov, opredeljuje taksonomijo podatkovnih
tipov, ki vključuje razrede in primere iz primitivnih podatkovnih tipov, generiranih
podatkovnih tipov (nesestavljeni in sestavljeni podatkovni tipi), podtipov ter opredeljenih
podatkovnih tipov. S takšno strukturo omogoča modul predstavitev poljubno kompleksnih
podatkovnih tipov.
Modul OntoDM-core formalizira najpomembnejše entitete (v domeni) podatkovnega rudarjenja,
ki so potrebne za predstavitev rudarjenja strukturiranih podatkov v kontekstu
teoretičnega okvira podatkovnega rudarjenja: te vključujejo podatkovno množico, nalogo
podatkovnega rudarjenja, modele, algoritm podatkovnega rudarjenja itd. Natančneje, modul
omogoča predstavitev podatkovnih množic in taksonomijo podatkovnih množic, ki izhaja
iz podatkovnega tipa. Prav tako omogoča predstavitev nalog podatkovnega rudarjenja ter
predlaga taksonomijo nalog podatkovnega rudarjenja, taksonomijo nalog napovednega modeliranja,
in taksonomijo nalog hierarhičnog razvrščanja. Poleg tega omogoča predstavitev
modelov ter predlaga taksonomijo splosnih modelov in napovednih modelov, ki temeljijo na
podatkovnih tipih in jeziku modelov. Omogoča tudi reprezentacijo algoritmov podatkovnega
rudarjenja in predlaga njihovo taksonomijo, ter taksonomijo algoritmov za napovedno
modeliranje in taksonomijo algoritmov za hierarhično razvrščanje, prav tako posplošuje mehanizme
predstavitev algoritmov podatkovnega rudarjenja v kontekstu predstavitve splošnih
algoritmov v računalništvu. Modul OntoDM-core prav tako omogoča reprezentacijo omejitev
in nalog podatkovnega rudarjenja, ki so opredeljene z omejitvami, pri čemer predlaga
njihovo taksonomijo. Nenazadnje omogoča modul tudi predstavitev opisa sekvenc aktivnosti
podatkovnega rudarjenja, ki vključuje specifikacijo, delotok podatkovnega rudarjenja ter
proces izvedbe delotoka podatkovnega rudarjenja.
Modul OntoDM-KDD omogoca predstavitev procesa odkrivanja znanja s podatkovnim
rudarjenjem. Modul omogoča pre poizvedbe podatkovnega rudarjenja z neposredno razširitvijo
razredov iz OBI in IAO ontologij. Poleg tega modelira vsako fazo procesa odkrivanja
znanja (denimo razumevanje uporabe, razumevanja podatkov, priprave podatkov, modeliranje,
postopek vrednotenja podatkovnega rudarjenja in postavitev) ter njihovih vhodov in
izhodov.
OntoDM ontologij ter njene pripadajoče tri module OntoDT, OntoDM-core in OntoDMKDD
smo ovrednotili z namenom opredelitve njihove kakovosti. Vrednotenje je potekalo na
podlagi oblikovnih načel in najboljših praks, pri čemer se je ocenjevalo, ali lahko ontologija
odgovori na kompetenčna vprašanja, ki so bila zastavljena v fazi oblikovanja. Poleg tega smo
ocenili pokritost domene na podlagi primerjave taksonomije nalog podatkovnega rudarjenja
s tematsko ontologijo podatkovnega rudarjenja, ki smo jo zgradili na polavtomatski način
iz povzetkov člankov s konferenc o podatkovnem rudarjenju ter iz znanstvenih revij.
Na tak način razvita ontologija podpira široko paleto aplikacij. Njeno uporabo in mo-
žnosti aplikacije v ilustriramo na šestih opisanih primerih uporabe. OntoDM ontologij smo
uporabili za označevanje algoritmov podatkovnega rudarjenja, za predstavitev scenarij aktivnosti
podatkovnega rudarjenja ter za označitev procesa podatkovnega rudarjenja. V meddomenskih
aplikacijah se OntoDM uporablja za podporo (na ontologiji temelječih) reprezentacij
QSAR modeliranja za odkrivanje zdravil in kot srednjestopenjska ontologija (Expose
ontologija). OntoDM lahko uporabimo tudi ter za označevanje člankov, ki vsebujejo termine
iz podatkovnega rudarjenja, v kombinaciji z orodji za rudarjenje besedil.
Novosti, ki jih uvaja ontologija OntoDM in jo obenem razlikujejo od ostalih sorodnih
ontologij, so možnosti reprezentacije podatkovnega rudarjenja strukturiranih (kompleksnih)
podatkov in generalnega procesa podatkovnega rudarjenja na načelni ravni, ki temelji na
teoretičnem okviru, zaradi česar se lahko povezuje z ostalimi domenskimi ontologijami z namenom
podpore meddomenskih aplikacij. Ontologija OntoDM je prav tako prva ontologija,
ki omogoča reprezentacijo celotnega procesa odkrivanja znanja.
V okviru nadaljnjega razvoja OntoDM ontologije se nameravamo osredotočiti na nekaj
vidikov. Najprej želimo poravnati in preslikati našo ontologijo na druge višjestopenjske ontologije.
Prav tako načrtujemo razširitev predlaganega ontološkega okvira z namenom reprezentacije
komponent algoritmov podatkovnega rudarjenja, kot sta funkcija razdalje in kernel
funkcija. Nato nameravamo napolniti/dopolniti ontologijo s primeri. Poleg tega načrtujemo
razširitev reprezentacijskega okvira z namenom reprezentacije poskusov/eksperimentov znotraj
rudarjenja strukturiranih podatkov v kontekstu eksperimentalnih podatkovnih baz. Naposled
bomo z namenom razvoja OntoDM vključili več sodelavcev s področja podatkovnega
rudarjenji, pri čemer bomo uporabili načela oblikovanja OntoDM za razvoj ontologij z drugih
področij računalništva.