Ogledi: 8 | Prenosi: 10
Ali je mogoče zaupati modelu, zgrajenem z algoritmi strojnega učenja in rudarjenja podatkov?
Znano je, da lahko model v obliki odločitvenega drevesa vsebuje slabe, tj. manj
verodostojne dele, ki jih povzročajo patološko obnašanje indukcijskih algoritmov, šum in
manjkajoče vrednosti v podatkih, lahko pa se pojavijo tudi zaradi kompleksnosti domene.
Takšni modeli vsebujejo relacije, ki so statistično na videz pomembne, vendar v resnici
vsebinsko nepomembne. Take relacije spodkopavajo zaupanje uporabnikov v sistem za
rudarjenje podatkov in lahko privedejo do napačnih sklepov o najpomembnejših relacijah
v domeni.
V disertaciji predlagamo interaktivno metodo za gradnjo verodostojnih relacij v kompleksnih
domenah, ki jo poimenujemo Metoda rudarjenja podatkov človek-stroj (angl.
Human-Machine Data Mining - HMDM). Osnovna ideja našega pristopa je, da zgradimo
veliko število modelov, iz katerih pridobimo verodostojne relacije, ki so smiselne in visoke
kakovosti. Naloga je računsko zelo zahtevna in za vse primere, razen preprostih, ljudje
brez pomoči računalnika ne morejo analizirati ustreznega deleža vseh možnih modelov.
Vendar pa predstavljena kombinacija človeškega razumevanja in surove moči računalnika
omogoča pameten pregled najpomembnejših delov ogromnega preiskovalnega prostora.
Medtem ko metode rudarjenja podatkov preiskujejo, uporabniki preverjajo in vrednotijo
rezultate, sklepajo in usmerjajo iskanje na način, ki se zdi najobetavnejši. Na ta način
uporabniki usmerjajo proces rudarjenja podatkov proti pomembnim delom preiskovalnega
prostora in na koncu gradijo zaključne sklepe iz različnih najzanimivejših rešitev.
Metoda HMDM definira nabor programskih orodij, ki vsebuje polavtomatske postopke
rudarjenja podatkov in niz scenarijev, ki pomagajo uporabnikom, da vodijo analizo v smeri
verodostojnih modelov. Poleg tega metoda določa način pridobivanja verodostojnih relacij
iz več modelov, s katerim zagotavlja podporo analitiku v procesu gradnje pravilnih sklepov
o domeni.
Predlagano metodo smo demonstrirali na dveh kompleksnih domenah, ki pojasnjujeta,
kako sta sektor visokega šolstva in sektor raziskav in razvoja povezana z gospodarsko
blaginjo. Poleg tega smo v domeni avtomatske identifikacije spletnih žanrov pokazali, da
je metodo HMDM možno uspešno uporabiti tudi za učenje napovednih modelov iz druge
domene.
S pomočjo uporabniške študije smo pokazali prednosti metode HMDM, ker uporabniki
pogosto ne uspejo zaznati nesmiselnih relacij z opazovanjem enega samega modela,
zgrajenega z algoritmom strojnega učenja. Vendar pa so z opazovanjem zanimivih
variacij, t.j. možnih rešitev, ki jih predlaga metoda HMDM, uporabniki spoznali slabosti
privzetega modela in posledično ustvarili boljše modele.