MPŠ
MPŠ MP&Scaron MP&Scaron MP&Scaron Avtorji

Mednarodna
podiplomska šola
Jožefa Stefana

Jamova 39
SI-1000 Ljubljana
Slovenija

Tel: (01) 477 31 00
Faks: (01) 477 31 10
E-pošta: info@mps.si

Išči

Opis predmeta

Podatkovno rudarjenje in odkrivanje zakonitosti

Programi:

Informacijske in komunikacijske tehnologije, 3. stopnja

Sodelavci:

prof. dr. Nada Lavrač
dr. Petra Kralj Novak
prof. dr. Bojan Cestnik
doc. dr. Martin Žnidaršič

Cilji:

Odkrivanje zakonitosti v podatkih je proces odkrivanja vzorcev in modelov, opisanih s pravili ali drugimi človeku razumljivimi formalizmi za predstavitev znanja. Najpomembnejši del tega procesa predstavlja podatkovno rudarjenje, ki vključuje uporabo metod, tehnik in orodij za avtomatsko konstrukcijo vzorcev in modelov iz podatkov.

Cilji predmeta so (a) predstaviti osnove podatkovnega rudarjenja, postopke odkrivanja zakonitosti v podatkih ter metodologijo CRISP-DM, (b) predstaviti izbrane metode in tehnike podatkovnega rudarjenja, (d) predstaviti metodologijo ocenjevanja rezultatov.

Študenti bodo obvladali osnove predprocesiranja podatkov, rudarjenja podatkov in odkrivanja zakonitosti v podatkih ter bodo usposobljeni za praktično uporabo izbranih orodij podatkovnega rudarjenja in metod za evalvacijo rezultatov.

Vsebina:

Uvod:
uvod v podatkovno rudarjenje in odkrivanje zakonitosti v podatkih, povezava s strojnim učenjem, vizualizacija podatkov in modelov, predstavitev CRISP-DM metodologije odkrivanja zakonitosti

Priprava podatkov:
tabelarični podatki in relacijske podatkovne
baze, obravnava manjkajočih in šumnih
vrednosti, izbor atributov in značilk

Tehnike rudarjenja podatkov:
predstavitev posameznih tehnik rudarjenja podatkov: učenje odločitvenih, regresijskih in modelnih dreves, učenje klasifikacijskih in povezovalnih pravil, razvrščanje v skupine, metoda najbližjih sosedov, Naivni Bayesov klasifikator, metoda podpornih vektorjev, umetne nevronske mreže, odkrivanje podskupin, ansambli klasifikatorjev

Hevristike in ocenjevanje rezultatov:
predstavitev preiskovalnih hevristik, hevristik za ocenjevanje kvalitete naučenih vzorcev in modelov, metodologija evalvacije rezultatov

Napredne metode rudarjenja podatkov:
Učenje z delno-označenimi podatki, aktivno učenje, rudarjenje relacijskih podatkov,
propozicionalizacija, semantično rudarjenje podatkov

Praktično usposabljanje:
praktična uporaba izbranih tehnik in orodij rudarjenja podatkov

Temeljna literatura in viri:

Izbrana poglavja iz naslednjih knjig:

• J.H. Witten, E. Frank, and M.A. Hall, Data Mining: Practical Machine Learning Tools and Techniques (Third Edition). Morgan Kaufmann, 2011. ISBN 978-0-12-374856-0
• T. Mitchell, Machine Learning. McGraw Hill, 1997. ISBN 0070428077
• M. Berthold, and D.J. Hand, Eds. Intelligent Data Analysis: An Introduction. Springer, 2003. ISBN 978-3-540-43060-5
• S. Džeroski, and N. Lavrač, Eds. Relational Data Mining. Springer, 2001. ISBN 3-540-42289-7
• J. Fürnkranz, D. Gamberger, and N. Lavrač, Foundations of Rule Learning. Springer, 2012. ISBN 978-3-540-75196-0
• M. Bramer, Principles of Data Mining. Springer, 2007. ISBN 978-1-84628-765-7

Izbrane reference nosilca:

• J. Fürnkranz, D. Gamberger, and N. Lavrač, Foundations of Rule Learning. Springer, 2012.
• A. Vavpetič, V. Podpečan, and N. Lavrač, Semantic subgroup explanations. J. Intell. Inf. Syst.
42(2): 233-254, 2014.
• Petrič, B. Cestnik, N. Lavrač, and T. Urbančič, Outlier detection in cross-context link discovery for creative literature mining. The Computer Journal 55(1): 47-61, 2012.
• B. Sluban, D. Gamberger, and N. Lavrač, Ensemble-based noise detection: noise ranking and visual performance evaluation. Data Min. Knowl. Discov. 28(2): 265-303, 2014.
• M. Grčar, N. Trdin, and N. Lavrač. A methodology for mining document-enriched heterogeneous information networks. The Computer Journal, 56(3): 321-335, 2013.

Načini preverjanja znanja:

Pisni ali ustni izpit (40%)
Seminarska naloga z ustnim zagovorom (60%)

Obveznosti študentov:

Pisni ali ustni izpit
Seminarska naloga z ustnim zagovorom

Zunanje povezave: