MPŠ
MPŠ MP&Scaron MP&Scaron MP&Scaron Avtorji

Mednarodna
podiplomska šola
Jožefa Stefana

Jamova 39
SI-1000 Ljubljana
Slovenija

Tel: (01) 477 31 00
Faks: (01) 477 31 10
E-pošta: info@mps.si

Išči

Opis predmeta

Napredne jezikovne tehnologije

Programi:

Informacijske in komunikacijske tehnologije, 3. stopnja

Sodelavci:

prof. dr. Tomaž Erjavec

Cilji:

Jezikovne tehnologije zajemajo metode in aplikacije obdelave naravnega jezika na računalniku.

Slušatelji pridobijo osnovno teoretično razumevanje in praktične izkušnje s področij jezikovnih tehnologij in računalniškega jezikoslovja, kar je predpogoj za učinkovito delo na računalniški obdelavi jezikovnih podatkov.

Cilji predmeta so (a) predstaviti osnove jezikovnih tehnologij, (b) predstaviti zapis in označevanje jezikovnih virov in (c) izbrane metode in tehnike jezikovnih tehnologij.
Poudarek predmeta je na obravnavi slovenskega jezika.

Študenti bodo obvladali osnove jezikovnih tehnologij in bodo usposobljeni za praktično uporabo izbranih metod in orodij.

Vsebina:

Uvod:
Razvoj jezikoslovja in računalniškega jezikoslovja, kompleksnost jezika, ravni analize jezika, pregled aplikacij in metod.

Jezikovni korpusi:
Namen, zgodovina in tipologija, označevanje, uporaba, računalniški zapis, konkretni primeri.

Metode računalniške obravnave:
Regularni izrazi in končni avtomati, frazne gramatike, statistične metode, strojno učenje.

Analiza jezikovnih korpusov z metodami strojnega učenja:
Relevantne metode strojnega učenja, primeri uporabe za avtomatizirano označevanje na morfološki, sintaktični in semantični ravni.

Standardi za zapis:
Zgodovina standardizacije, kodni sistemi, XML, Text Encoding Initiative, ISO, metode evalvacije.

Področja uporabe:
Iskanje in zajemanje informacij, strojno prevajanje, govorne tehnologije, digitalne knjižnice, itd.

Temeljna literatura in viri:

Izbrana poglavja iz naslednjih knjig:

• D. Jurafsky, and J.H. Martin, Speech and Language Processing, 2nd Edition. Prentice-Hall, 2008. ISBN 978-0131873216
• R. Mitkov, Ed. The Oxford Handbook of Computational Linguistics. Oxford University Press, 2003. ISBN 978-0-19-823882-9
• C. Manning, and H. Schütze, Foundations of Statistical Natural Language Processing. MIT Press. 1999. ISBN 0-262-13360-1

Izbrane reference nosilca:

• T. Erjavec, The IMP historical Slovene language resources. Language resources and evaluation, 23 str., doi: 10.1007/s10579-015-9294-7, 2015.
• T. Erjavec, MULTEXT-East: morphosyntactic resources for Central and Eastern European languages. Language resources and evaluation, vol. 46, no. 1, str. 131-142, 2012.
• N. Ljubešić, and T. Erjavec, hrWac and sIWac: compiling web corpora for Croatian and Slovene. Text, speech and dialogue : proceedings, (Lecture notes in computer science, ISSN 0302-9743, Lecture notes in artifical intelligence, 6836). Berlin; Heidelberg: Springer, vol. 9743, str. 395-402, 2011.
• N. Logar, M. Grčar, M. Brakus, T. Erjavec, Š. Arhar Holdt, and S. Krek, Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES : gradnja, vsebina, uporaba, (Zbirka Sporazumevanje). Ljubljana: Trojina, zavod za uporabno slovenistiko: Fakulteta za družbene vede, 208 str., 2012.
• M. Juršič, I. Mozetič, T. Erjavec, N. Lavrač, LemmaGen: multilingual lemmatisation with induced Ripple-Down rules. Journal of universal computer science, vol. 16, no. 9, str. 1190-1214, 2010.

Načini preverjanja znanja:

Pisni ali ustni izpit (50%)
Seminarska naloga z ustnim zagovorom (50%)

Obveznosti študentov:

Pisni ali ustni izpit
Seminarska naloga z ustnim zagovorom

Zunanje povezave: