MPŠ
MPŠ MP&Scaron MP&Scaron MP&Scaron Avtorji

Mednarodna
podiplomska šola
Jo˛efa Stefana

Jamova 39
SI-1000 Ljubljana
Slovenija

Tel: (01) 477 31 00
Faks: (01) 477 31 10
E-pošta: info@mps.si

Išči

Opis predmeta

Podatkovno in tekstovno rudarjenje

Programi:

Informacijske in komunikacijske tehnologije, 2. stopnja

Sodelavci:

prof. dr. Nada Lavrač
doc. dr. Martin Žnidaršič
doc. dr. Petra Kralj Novak
prof. dr. Bojan Cestnik
prof. dr. Dunja Mladenić

Cilji:

Odkrivanje zakonitosti v podatkih je proces odkrivanja vzorcev in modelov, opisanih s pravili ali drugimi človeku razumljivimi formalizmi za predstavitev znanja. Najpomembnejši del tega procesa predstavlja podatkovno rudarjenje, ki vključuje uporabo metod, tehnik in orodij za avtomatsko odkrivanje vzorcev in konstrukcijo modelov iz podatkov. Cilji predmeta so:

• predstaviti osnove podatkovnega rudarjenja, postopke odkrivanja zakonitosti v podatkih, metodologijo CRISP-DM ter osnove upravljanja znanja
• predstaviti standardne oblike zapisa različnih vrst podatkov, usposobiti študente za manipulacijo tabelaričnih podatkov, podatkovnih baz in skladišč ter tekstovnih, spletnih in večpredstavnih podatkov
• predstaviti izbrane metode in tehnike rudarjenja tabelaričnih podatkov
• predstaviti izbrane metode in tehnike rudarjenja tekstovnih, spletnih in večpredstavnih podatkov
• usposobiti študente za praktično uporabo izbranih orodij podatkovnega rudarjenja in metod za evalvacijo rezultatov

Vsebina:

Uvod:
uvod v podatkovno rudarjenje in odkrivanje zakonitosti v podatkih, povezava s strojnim učenjem, vizualizacija podatkov, vzorcev in modelov, predstavitev CRISP-DM metodologije odkrivanja zakonitosti v podatkih ter osnove upravljanja znanja

Predstavitev in manipulacija podatkov:
predstavitev standardnih oblik zapisa različnih vrst podatkov ter kreiranje in manipulacija tabelaričnih podatkov, podatkovnih baz in skladišč ter obravnava tekstovnih, spletnih in večpredstavnih podatkov

Tehnike rudarjenja tabelaričnih podatkov:
predstavitev posameznih tehnik rudarjenja podatkov: predstavitev preiskovalnih hevristik in metod za učenje odločitvenih dreves, učenje klasifikacijskih in povezovalnih pravil, razvrščanje v skupine, odkrivanje podskupin, učenje regresijskih dreves in relacijsko podatkovno rudarjenje

Tehnike rudarjenja tekstovnih, spletnih in večpredstavnih podatkov:
predstavitev posameznih tehnik za analizo tekstovnih, spletnih in večpredstavnih podatkov ter metod vizualizacije podatkov

Ocenjevanje:
predstavitev metod za ocenjevanje kvalitete naučenih vzorcev in modelov ter metodologija evalvacije rezultatov

Praktično usposabljanje:
praktična uporaba izbranih orodij za manipulacijo in rudarjenja podatkov

Temeljna literatura in viri:

Izbrana poglavja iz naslednjih knjig:

• I. Witten, and F. Eibe, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann, 1999. ISBN 978-1-558-60552-7
• D. Mladenić, N. Lavrač, M. Bohanec, and S. Moyle, Eds. Data Mining and Decision Support: Integration and Collaboration. Kluwer, 2003. ISBN 1-4020-7388-7
• I. Kononenko, and M. Kukar, Machine Learning and Data Mining. Horwood Publishing, 2007. ISBN 978-1-904-27521-3
• T. Mitchell, Machine Learning. McGraw Hill, 1997. ISBN 978-0-070-42807-2
• M. Berthold, and D. J. Hand, Eds. Intelligent Data Analysis: An Introduction. Springer, Berlin-Heidelberg, 1999. ISBN 978-3-540-65808-5
• S. Džeroski, and N. Lavrač, Eds. Relational Data Mining. Springer 2001. ISBN 3-540-42289-7
• J. Fürnkranz, D. Gamberger, and N. Lavrač, Foundations of Rule Learning. Springer 2012. ISBN 978-3-540-75196-0
• S. Chakrabarti, Mining the Web: Analysis of Hypertext and Semi Structured Data, Morgan Kaufmann, 2002. ISBN 1-55860-754-4
• U. Fayyad, G.G. Grinstein, and A. Wierse, Eds. Information Visualization in Data Mining and Knowledge Discovery. Morgan Kaufmann. 2001. ISBN 978-1-558-60689-0
• M. Bramer, Principles of Data Mining. Springer, 2007. ISBN 978-1-84628-765-7

Izbrane reference nosilca:

• J. Fürnkranz, D. Gamberger, and N. Lavrač, Foundations of Rule Learning. Springer 2012.
• B. Sluban, D. Gamberger, and N. Lavrač, Ensemble-based noise detection: noise ranking and visual performance evaluation. Data Min. Knowl. Discov. 28(2): 265-303, 2014.
• A. Vavpetič, V. Podpečan, and N. Lavrač, Semantic subgroup explanations. J. Intell. Inf. Syst. 42(2): 233-254, 2014.
• M. Grčar, N. Trdin, and N. Lavrač. A methodology for mining document-enriched heterogeneous information networks. The Computer Journal, 56(3): 321-335, 2013.
• I. Petrič, B. Cestnik, N. Lavrač, and T. Urbančič, Outlier detection in cross-context link discovery for creative literature mining. The Computer Journal 55(1): 47-61, 2012.
• D. Mladenić, and M. Grobelnik, Machine learning on text. In: GOLUB, Koraljka (ed.). Subject access to information : an interdisciplinary approach. Santa Barbara; Denver; Oxford: Libraries Unlimited, 2015, pp. 132-148.
• D. Mladenić, and M. Grobelnik, Automatic text analysis by artificial intelligence. Informatica, ISSN 0350-5596, 2013, 37:1, pp. 27-33.
• D. Mladenić, Text mining. In: SAMMUT, Claude (ed.), WEBB, G.I. (ed.). Encyclopedia of Machine Learning. New York: Springer, 2011, pp. 962-963.
• D. Mladenić, Feature selection in text mining., In: SAMMUT, Claude (ed.), WEBB, G.I. (ed.). Encyclopedia of Machine Learning. New York: Springer, 2011, pp. 406-410.
• I. Petrič, and B. Cestnik, Predicting future discoveries from current scientific literature. In: KUMAR, Vinod D. (ur.). Biomedical Literature Mining, Methods in Molecular Biology, ISSN 1064-3745, vol. 1159). New York [etc.]: Humana Press, cop. 2014, pp. 159-168.

Načini preverjanja znanja:

Seminar in (pisni ali ustni) izpit

Obveznosti študentov:

Seminar in (pisni ali ustni) izpit

Zunanje povezave: